第年期月电子学报附汉语信息嫡和语言模型的复杂度吴军王作英清华大学电子工程系北京“【提要】本文介绍了估计汉语信息摘的方法并通过对大量语料的统计给出了汉语信息嫡的一个上界一比特汉字本文还以此为基础对统计语言模型的能力进行了定量的描述比较了常用的统计语言模型的性能并给出了一种用低阶语言模型通近高阶模型的方法关健词嫡复杂度统计语言模型字频出发作了粗略的估计结果为比特汉一引近来言字习统计语言模型越来越多地被用于自然语言处理此法以信息论为基础把语言理解看成利用信息来消除句子中文字不确定性过程要了解不同模型性能的差异二信息摘和语言模型的复杂度一种语言或语言的子集可以视为一个信源假设其字符集大小为如果这种语言中的语句可必须了解在语言中确定一个字符平均需要多少信息量并定量度量各语言模型消除不确定性的能力在一种语言中每个字符汉语中为汉字到底以任意组合且每个字符都是等概出现的那么每个字符需要比特的信息才能相互区分从信息论的观点看每个字符所含的信息量为实际在包含多少信息根据的信息嫡〕自然语言中各个字符出现的概率不同并有上下文相关性因此实际确定一个字符并不需要这么多信可定量描述尽管要准确给出一种语言中字符平均的摘是很难的但可以估计出它的上界国外对英语息假设每个字符的概率分布为尸…先作了许多研究最初只考虑了字符的频率得到平均摘为考虑单独一个字符的情况平均信息量为一比特字符近年来利用单词一级的语言模型对大规模语料库进行了统计得到了精确得多的结果艺尸尸—年比特字符阁对于汉语过去只从,信息论中定义为信息嫡记为易证月收到年月定稿电子学报年语言模型的性能主要由两个因素决定模型的再看有上下文的情况由于自然语言中的句子是由中字符构成的典型序列因此一个长为阶数和构造模型的基本单元显然模型的阶数越的高则效果越好当然实现的难度也越大另外选择合适的模型单元也很重要例如在汉字中可以以字句子一。…尸‘所包含的信息量大‘艺〔。…。尸。。…。为单位建立模型也可以按词建立同阶模型基于词的优于基于字的当然难度也大由于汉字的数目记作尸尸每个字符平均的信息量为生有限以汉字为单元可建立阶数较高的模型如三元文法模型而汉语词数量太大建立二元文法模型已不容易因此目前国内已实现的语言模型有基于字的一二和三元文法模型分别编号为和一一记作尸可以证明尸是的非负单二调减有下界函数因此极限存在记为尸它一一反映出这种语言信源平均每个字符的信息量称为这个语言中每个字符的平均信息嫡或嫡率以及基于词的一二元文法模型分别编号为一至于一和一哪在不引起混淆时简称为语言的嫡种更好只有得到这两种模型的复杂度才能知道尽管目前还无法实现基于词的三元文法模型由于自然语言是各态遍历的根据定理有一可以采用多个二元文法模型的凸组合近似它这个尸与。。…。组合模型称为长距离二元文法模型因此只要求出‘…‘就能知道语言它采用产一产一一的嫡而尸可计算的前提是自然语言符合马尔可夫代替三元文法模型中的尸‘一它最初用在假设这和实际情况相符因此我们假设自然语言是一个一语音识别中结果优于一般二元文法模型困但无人从嫡的角度证实它把它看成是三元文法模型的近阶马尔可夫链在此基础上建立的语言模型称为的嫡率记为户元文法模型我们有…这时得到似用于嫡上界的估计当然只有在用它得到结果的确是嫡的上界时这种作法的结果才有意义实际上这个前提是成立的下面给出证明记户、。。一尸。。。…。一群一户一二产‘。产二产十产一尸二…。。。可作为‘一的近似由于无条件大于条件嫡所以二命题用式得到的是尸对平稳的信源尸动是尸尸三户、元文法模型的模型对信源嫡率的上界的估值为因此使用用三元文法模型得到的估值证明记和尸‘一和尸‘‘一对应的嫡为上界换句话说各种统计语言模型估计出的的下确界是。户尸显然模型越小接近语言的由于条件嫡小于非条件嫡因此材真实情况户越小就越接近其实际的值因此且材不同的模型不同的作用一个确定的语言子集时得到的根据嫡的凸性对于式产产,的凸组合有产,户,反应出语言模型描述自然语言产、能力的好坏户动的物理含义为利用语言模型一尸证毕产尸在自然语言中区别每个字符所需的信息量户因此‘为二的上界我们用越小模型的约束力越强在语音和文字识别中不脚尸一并可提供到高阶我们把基于一使用语言模型时识别一个字符必须从一而利用语言模型后平均只需从个中选护个中选词的长距离二元文法模型编号为它比一般的二元文法模型好实验表明月少一为了直观起见直接用、度量模型的能力称为模型的复杂度越小模型越有效〕记为尸尸尸尸值三摘的估计估计嫡的过程分两步统计足够的真实文本电子学报年语言模型的性能主要由两个因素决定模型的再看有上下文的情况由于自然语言中的句子是由中字符构成的典型序列因此一个长为阶数和构造模型的基本单元显然模型的阶数越的高则效果越好当然实现的难度也越大另外选择合适的模型单元也很重要例如在汉字中可以以字句子一。…尸‘所包含的信息量大‘艺〔。…。尸。。…。为单位建立模型也可以按词建立同阶模型基于词的优于基于字的当然难度也大由于汉字的数目记作尸尸每个字符平均的信息量为生有限以汉字为单元可建立阶数较高的模型如三元文法模型而汉语词数量太大建立二元文法模型已不容易因此目前国内已实现的语言模型有基于字的一二和三元文法模型分别编号为和一一记作尸可以证明尸是的非负单二调减有下界函数因此极限存在记为尸它一一反映出这种语言信源平均每个字符的信息量称为这个语言中每个字符的平均信息嫡或嫡率以及基于词的一二元文法模型分别编号为一至于一和一哪在不引起混淆时简称为语言的嫡种更好只有得到这两种模型的复杂度才能知道尽管目前还无法实现基于词的三元文法模型由于自然语言是各态遍历的根据定理有一可以采用多个二元文法模型的凸组合近似它这个尸与。。…。组合模型称为长距离二元文法模型因此只要求出‘…‘就能知道语言它采用产一产一一的嫡而尸可计算的前提是自然语言符合马尔可夫代替三元文法模型中的尸‘一它最初用在假设这和实际情况相符因此我们假设自然语言是一个一语音识别中结果优于一般二元文法模型困但无人从嫡的角度证实它把它看成是三元文法模型的近阶马尔可夫链在此基础上建立的语言模型称为的嫡率记为户元文法模型我们有…这时得到似用于嫡上界的估计当然只有在用它得到结果的确是嫡的上界时这种作法的结果才有意义实际上这个前提是成立的下面给出证明记户、。。一尸。。。…。一群一户一二产‘。产二产十产一尸二…。。。可作为‘一的近似由于无条件大于条件嫡所以二命题用式得到的是尸对平稳的信源尸动是尸尸三户、元文法模型的模型对信源嫡率的上界的估值为因此使用用三元文法模型得到的估值证明记和尸‘一和尸‘‘一对应的嫡为上界换句话说各种统计语言模型估计出的的下确界是。户尸显然模型越小接近语言的由于条件嫡小于非条件嫡因此材真实情况户越小就越接近其实际的值因此且材不同的模型不同的作用一个确定的语言子集时得到的根据嫡的凸性对于式产产,的凸组合有产,户,反应出语言模型描述自然语言产、能力的好坏户动的物理含义为利用语言模型一尸证毕产尸在自然语言中区别每个字符所需的信息量户因此‘为二的上界我们用越小模型的约束力越强在语音和文字识别中不脚尸一并可提供到高阶我们把基于一使用语言模型时识别一个字符必须从一而利用语言模型后平均只需从个中选护个中选词的长距离二元文法模型编号为它比一般的二元文法模型好实验表明月少一为了直观起见直接用、度量模型的能力称为模型的复杂度越小模型越有效〕记为尸尸尸尸值三摘的估计估计嫡的过程分两步统计足够的真实文本电子学报年语言模型的性能主要由两个因素决定模型的再看有上下文的情况由于自然语言中的句子是由中字符构成的典型序列因此一个长为阶数和构造模型的基本单元显然模型的阶数越的高则效果越好当然实现的难度也越大另外选择合适的模型单元也很重要例如在汉字中可以以字句子一。…尸‘所包含的信息量大‘艺〔。…。尸。。…。为单位建立模型也可以按词建立同阶模型基于词的优于基于字的当然难度也大由于汉字的数目记作尸尸每个字符平均的信息量为生有限以汉字为单元可建立阶数较高的模型如三元文法模型而汉语词数量太大建立二元文法模型已不容易因此目前国内已实现的语言模型有基于字的一二和三元文法模型分别编号为和一一记作尸可以证明尸是的非负单二调减有下界函数因此极限存在记为尸它一一反映出这种语言信源平均每个字符的信息量称为这个语言中每个字符的平均信息嫡或嫡率以及基于词的一二元文法模型分别编号为一至于一和一哪在不引起混淆时简称为语言的嫡种更好只有得到这两种模型的复杂度才能知道尽管目前还无法实现基于词的三元文法模型由于自然语言是各态遍历的根据定理有一可以采用多个二元文法模型的凸组合近似它这个尸与。。…。组合模型称为长距离二元文法模型因此只要求出‘…‘就能知道语言它采用产一产一一的嫡而尸可计算的前提是自然语言符合马尔可夫代替三元文法模型中的尸‘一它最初用在假设这和实际情况相符因此我们假设自然语言是一个一语音识别中结果优于一般二元文法模型困但无人从嫡的角度证实它把它看成是三元文法模型的近阶马尔可夫链在此基础上建立的语言模型称为的嫡率记为户元文法模型我们有…这时得到似用于嫡上界的估计当然只有在用它得到结果的确是嫡的上界时这种作法的结果才有意义实际上这个前提是成立的下面给出证明记户、。。一尸。。。…。一群一户一二产‘。产二产十产一尸二…。。。可作为‘一的近似由于无条件大于条件嫡所以二命题用式得到的是尸对平稳的信源尸动是尸尸三户、元文法模型的模型对信源嫡率的上界的估值为因此使用用三元文法模型得到的估值证明记和尸‘一和尸‘‘一对应的嫡为上界换句话说各种统计语言模型估计出的的下确界是。户尸显然模型越小接近语言的由于条件嫡小于非条件嫡因此材真实情况户越小就越接近其实际的值因此且材不同的模型不同的作用一个确定的语言子集时得到的根据嫡的凸性对于式产产,的凸组合有产,户,反应出语言模型描述自然语言产、能力的好坏户动的物理含义为利用语言模型一尸证毕产尸在自然语言中区别每个字符所需的信息量户因此‘为二的上界我们用越小模型的约束力越强在语音和文字识别中不脚尸一并可提供到高阶我们把基于一使用语言模型时识别一个字符必须从一而利用语言模型后平均只需从个中选护个中选词的长距离二元文法模型编号为它比一般的二元文法模型好实验表明月少一为了直观起见直接用、度量模型的能力称为模型的复杂度越小模型越有效〕记为尸尸尸尸值三摘的估计估计嫡的过程分两步统计足够的真实文本