大语言模型有些侧重英语训练,有些侧重汉语训练,而中国普遍存在的双语者在与大语言模型对话时会如何选择语言呢?
背景
在 HCI 1 课上有一份调查作业,于是利用这份调查作业的机会「身边统计学」了一下这个一直以来感兴趣的问题。在此先谢过填了我问卷的 25 位朋友和回答了我的采访问题的 6 位朋友🙏。
2025 年,大语言模型头部玩家基本上只剩下中美两国。美国的御四家:OpenAI 的 GPT 和 o 系列模型、Google 的 Gemini 和 Gemma、Anthropic 的 Claude,还有 xAI 的 Grok。中国比较有潜力的大约也是四家——略微主观一点,DeepSeek、阿里的 Qwen、字节的豆包、月之暗面的 Kimi。虽然各家的训练数据都从未公开过,但合理推测,美国四家后训练一定以英语为主导,而中国四家则大概率用了比美国四家更多的汉语数据(虽然不一定是汉语数据为主导)。这些模型在英语和汉语上的表现应当是有差异的,因此,我们在这里把美国模型和中国模型分别称作英语模型和汉语模型2。
而中国有大量的汉英双语者,高考水平的英语应当是足够和大语言模型对话了,而在我身边英语水平达到专业水准的人就更多了。那么问题是,中国的双语者:
- ……会选择什么语言和大语言模型对话?
- ……如何决策选择大语言模型?
- ……在与大语言模型对话时是否使用不同的语言?如果是,是如何混合或切换的?
语言选择是存在的
多语者确实会对大语言模型考虑使用不同的语言。
我们知道无论是英语大语言模型都是有多语言能力的,无论是使用汉语还是英语,都能和任何一个大语言模型进行「互通」的(mutual intelligible)的对话。在两个汉语母语者的对话中,即使双方都熟练掌握英语,使用英语而非汉语对话也并非常见情况。那么多语者是否真的会对大语言模型使用不同的语言?
答案是肯定的。在我们的调查中,尽管多数被试(21 位)都表示对模型使用汉语不少于英语,只有非常少量的被试(3 位)对大语言模型仅使用一种语言。因此,研究多语者在什么情况下使用什么语言是有意义的。
语言选择是次要的
多语者主要根据任务选择大语言模型。任务选择和大语言模型的选择反而影响了使用什么语言和模型对话。
用户使用大语言模型,总是意图完成一定的任务。我们在采访中发现,所有被试都会根据不同的任务来确定使用什么大语言模型。一些提到的策略包括:
- 写代码用英语模型。
- 搜索学术资料用英语模型。讨论学术概念用英语模型。
- 搜索中餐资料用汉语模型。
那么特定任务会用特定语言吗?4 位被试回答是,2 位回答否。回答是的被试提到,在一些需要严谨推理(代码、学术)的严肃任务上,他们总是尽量使用英语。而回答否的被试则说,他们会尽可能用表述起来最方便的语言(比如后续指令用汉语)。
那么特定模型会用特定语言吗?这里也是两种都有,有 3 位被试保持着英语模型用英语、汉语模型用汉语的对应,但也有 3 位被试并不会根据模型刻意控制自己使用的语言。
由此来看,任务才是决定模型选择的主要因素,而是否会用自己习惯的语言,则更大程度上地取决于任务和模型选择的结果。在调查中,21 位被试表示「特定任务和模型应当使用何种语言对话」是非常重要的知识,而且在采访中我们观察到了被试或多或少都具有这样的知识。当我们在采访中询问被试是否某一国家的模型会长久地保持领先,被试总是联系具体擅长的任务作答。这并不是一个出人意料的结果——有点类似一种对 Sapir-Whorf 假说的延伸和利用:
- 既然特定语言会影响思维方式和决策方式,也会影响大语言模型的表现……
- ……那么为了更恰当的思维和决策,以及大语言模型表现,可能需要选择特定的语言
不是所有被试都这样做,因为使用英语相比母语的汉语更困难3,表现不甚重要的场合下,可能没有必要为了表现而优化使用的语言。但我们注意到,有 13 位被试表示并不会希望「任何模型都能只使用汉语」,而 7 位表示有此期盼。这可能表示:
- 不在意是否使用汉语。
- 有些情况下需要使用英语。
前者表示被试并不关心语言选择,而后者则表示被试需要保持语言选择的自由,结合其他因素再做决断。因此,我们可以推论语言选择是次要的考虑因素——既非最重要,但也并非完全不重要。
动态选择语言
那么双语者是否会在和大语言模型的对话过程中,更换自己使用的语言呢?有 11 位被试表示会,有 10 位被试表示不会。在采访中,常见的一些更换语言的情况是:
- 要求模型翻译或总结到汉语。
- 要求模型切换到英语,以提升专业性。
此外还有一些混合不同语言的情况,比如使用汉语表述部分指令,或者在专业词汇和人名上保持英语。
在和模型的对话中,用户并不希望模型主动切换语言——即语言混杂(language mixing),被视作是模型的缺陷。20 位被试表示这个问题已经得到了解决,而 3 位被试表示仍然会遇到。在采访中我们询问被试假如遇到模型主动切换语言会如何处理,4 位被试都表示会要求模型更换回之前的语言,但也有 2 位被试表示,会让模型继续输出,保证讨论的连贯性。
对模型的启发
首先,我们目前的多语言评测方式并不一定合适——多语言之间需要平行评测集。DeepSeek 用汉语做代码题或搜索网页比 OpenAI 的 GPT 做得好,但使用英语时不如 GPT,这样的结果并不会吸引双语者用户去使用汉语模型——因为任务上的表现优先于语言选择。因此,更合理的评测应该是,在完全相同但用不同语言表述的任务上,对比汉语模型在汉语上的效果和英语模型在英语上的效果。这对于只能使用汉语而不能使用英语的用户也更公平。
其次,虽然 language mixing 是一种需要避免的情况,但双语者用户会在一次对话中切换或混合语言。考虑到对话在模型训练时实际上是拼接在一起的一段文本——像是剧本,我们需要保证模型的 <assistant> 部分不会出现多语言混杂,但用户的 <user> 部分又存在多语言混杂的输入,这在训练数据层面也许需要更灵活、更精细化的控制。
此外,目前的模型训练似乎越来越依赖跨语言的泛化能力——因为大量的代码、学术文献都是英语的。这种策略究竟有多有效,可能也是一个有趣的课题。
其他发现
调查中发现,被试中最常见的让模型完成的任务是“搜索”。考虑到模型的幻觉问题,过度依赖模型进行搜索似乎并不合理——但这似乎又指向了 RAG 的重要性。以及,考虑到汉语互联网的不可搜索性,这对汉语模型产品的发展也有一些不利。
另外,出乎我意料的是,被试几乎都不会关心“思考”(thinking)的长思维链(chain of thought)——不会阅读,也不会在意它是什么语言。有 1 位被试说里面的思考也许有阅读价值,但它实在是太长了。阅读思维链也许是职业病罢🤣。既然如此,固定使用英语或者汉语训练思维链,甚至在 latent space 进行思维链的部分,大概也不会影响到用户的使用体验。