其实从《数学之美》这书名上看就可以知道,这是一本科普类的图书。这本书收集吴军博士早期发布在谷歌黑板报上解释搜索相关的数学原理的文章。吴军博士之前在谷歌和腾讯都从事搜索相关领域的研究,自然而然的有很多独特见解。除了这本书之外,他还有《浪潮之巅》、《大学之光》等科普图书,也是值得一读。

虽然是科普类读物,但是本书还是有一些阅读门槛的。大二的时候也看过这本书,当时的数理基础不够,囫囵吞枣翻完后。事后大概只记得自然语言处理、马尔科夫链等等的名词。这一段时间正好自己也在做文本搜索相关的工作,所以又从图书馆中借来一读。

本书大概介绍了 Google 整个搜索引擎的基本框架,包括资料获取、分词、索引、排名、分类、相似度计算等知识。这一次读完之后,印象最深刻的是关于从通信模型推导出语言翻译模型的转变。这里和大家分享一下我的简单见解,如果想要更加深入的理解可以阅读《数学之美》的第 5 章 隐含马尔可夫模型。

大二的时候上过《通信原理》这门课,其中讲解如下图所示的简单通信系统。一般包括五个最基础的要输,分别是信源、变换器、信道、反变换器、信宿。从字面上很难理解这些东西是,所以简单的解释一下。通信系统是对通信过程的抽象概括,比如你和其他人发微信时,你就是信源,信息的发送方。变换器的作用是编码,计算机只能处理 0 和 1,所以需要将你的消息通过一定的方法(协议)转化成为由 0 和 1 组成的序列。之后的信道指的是信息发送的通道,可以理解为发送微信时需要有网。反变换器顾名思义作用和变换器相反,从一个二进制序列还原成和你聊天的人(信宿,和你聊天的人)可以理解的消息。

当时学到这里的时候,没有去发散思维,思考这个模型在其他领域的应用。《数学之美》书中,讲到统计语言模型时,将它衍生到机器翻译的过程中。在日常生活中,我们和其他人交流的时,一般是在脑子中有一个想法(信源),然后在说出来(编码),声音在空气中传播(信道),最后被另外的人(信宿)听到,并且在脑子中思考理解(解码)做出相应的回应。对于翻译问题,可能我说出来的是中文,如果听到的是美国人,他需要将你说的转化为英文。所以产生的一个问题是,如何实现将中文与英文对应起来,也就是翻译问题了。为了解决这个问题,科学奖们运用了贝叶斯概率、隐含马尔科夫模型、大数定理等数学知识来处理。

这只是书中的一个简单例子,吴军博士在自然语言处理与搜索领域的经历令人难以望其项背,书中关于这两个领域在近代的发展的小故事比比皆是,作者更是和这些人谈笑风声。所以,我推荐所有对数学有爱好的人,都可以看一下这本书,感受一下数学原理的力量。