数学之美-读书笔记


很早看过吴军的浪潮之巅,这次看数学之美才发现,原来数学也有这么通俗易懂,应用广泛的地方。这本书更应该是数学学前导读本,想想大学N节数学课的天书状,就后悔这本书没早看到。
统计语言模型解决了自然语言处理的领域中【机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询的问题、中文分词】

信息论,隐含马尔可夫模型,解决语音识别。

信息熵度量信息量。【maybe压缩文件就是用信息熵的概念对文件进行压缩】

布尔代数和搜索引擎的索引【通过布尔代数建立搜索引擎的索引。网页内部的内容建立不同权重,搜索引擎用布尔代数的原理进行相关匹配】

图论和网络爬虫【BFS&DFS以及哈希表自动下载互联网所有网页,原来现实生活中的六度空间理论,在互联网一度就over了】

信息论在自然语言处理中的应用【信息熵正是对不确定性的衡量,互信息用来量化两个随机事件相关性,相对熵来衡量两个常用词(在语法上和语义上)是否同义】

如何确定网页和查询的相关性。TF/IDF(term frequency/inverse document frequency)

有限状态机和地址识别【每一个有限状态机都有一个启始状态和一个终止状态和若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件。如果一条地址能从状态机的起始状态经过状态机的若干中间状态,走到终止状态,那么这条地址则有效,否则无效。】

余弦定理和新闻的分类【当两条新闻向量夹角的余弦等于一时,这两条新闻完全重复(用这个办法可以删除重复的网页);当夹角的余弦接近于一时,两条新闻相似,从而可以归成一类;夹角的余弦越小,两条新闻越不相关。】

信息指纹及其应用【用伪随机数产生器算法(prng)产品的信息指纹存储网址,内存需求小。信息指纹对于网址消重和不可逆性】

数学模型的重要性:托勒密的地心说、张衡的浑天地动说,哥白尼的日心说,再到开普勒发现行星的轨道是椭圆形,到牛顿用万有引力,到最后亚当斯和维内尔独立地发现了吸引天王星偏离轨道的海王星。
数学模型的重要性:
1. 一个正确的数学模型应当在形式上是简单的。(托勒密的模型显然太复杂。)
2. 一个正确的模型在它开始的时候可能还不如一个精雕细琢过的错误的模型来的准确,但是,如果我们认定大方向是对的,就应该坚持下去。(日心说开始并没有地心说准确。)
3. 大量准确的数据对研发很重要。
4. 正确的模型也可能受噪音干扰,而显得不准确;这时我们不应该用一种凑合的修正方法来弥补它,而是要找到噪音的根源,这也许能通往重大发现。

最大熵模型不要把所有的鸡蛋放在一个篮子里
最大熵(maximum entropy)模型:就是要保留全部的不确定性,将风险降到最小。最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要。)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。
去噪音法解决搜索引擎作弊重复关键词重复网页链接问题。

线性代数中矩阵运算解决文本处理中的分类问题

贝叶斯网络在图像处理、文字处理、支持决策等方面有很多应用,。我们利用贝叶斯网络,可以找出近义词和相关的词,在google搜索和google广告中都有直接的应用【贝叶斯网络:其每个状态值取决于前面有限个状态,描述事件之间的相关性】

布隆过滤器在垃圾邮件过滤的应用

密码学的数学原理中加密算法。简单的算法,可以完成复杂的加密。

动态规划基于汉字输入法和全球导航的应用。看似不同的应用后面却是完全一样的数学模型。

数学的妙处在于它的每一个工具都具有相当的普遍性,在不同的应用中都可以发挥很大的作用。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据