数学之美-读书笔记


很早看过吴军的浪潮之巅,这次看数学之美才发现,原来数学也有这么通俗易懂,应用广泛的地方。这本书更应该是数学学前导读本,想想大学N节数学课的天书状,就后悔这本书没早看到。
统计语言模型解决了自然语言处理的领域中【机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询的问题、中文分词】

信息论,隐含马尔可夫模型,解决语音识别。

信息熵度量信息量。【maybe压缩文件就是用信息熵的概念对文件进行压缩】

布尔代数和搜索引擎的索引【通过布尔代数建立搜索引擎的索引。网页内部的内容建立不同权重,搜索引擎用布尔代数的原理进行相关匹配】

图论和网络爬虫【BFS&DFS以及哈希表自动下载互联网所有网页,原来现实生活中的六度空间理论,在互联网一度就over了】

信息论在自然语言处理中的应用【信息熵正是对不确定性的衡量,互信息用来量化两个随机事件相关性,相对熵来衡量两个常用词(在语法上和语义上)是否同义】

如何确定网页和查询的相关性。TF/IDF(term frequency/inverse document frequency)

有限状态机和地址识别【每一个有限状态机都有一个启始状态和一个终止状态和若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件。如果一条地址能从状态机的起始状态经过状态机的若干中间状态,走到终止状态,那么这条地址则有效,否则无效。】

余弦定理和新闻的分类【当两条新闻向量夹角的余弦等于一时,这两条新闻完全重复(用这个办法可以删除重复的网页);当夹角的余弦接近于一时,两条新闻相似,从而可以归成一类;夹角的余弦越小,两条新闻越不相关。】

信息指纹及其应用【用伪随机数产生器算法(prng)产品的信息指纹存储网址,内存需求小。信息指纹对于网址消重和不可逆性】

数学模型的重要性:托勒密的地心说、张衡的浑天地动说,哥白尼的日心说,再到开普勒发现行星的轨道是椭圆形,到牛顿用万有引力,到最后亚当斯和维内尔独立地发现了吸引天王星偏离轨道的海王星。
数学模型的重要性:
1. 一个正确的数学模型应当在形式上是简单的。(托勒密的模型显然太复杂。)
2. 一个正确的模型在它开始的时候可能还不如一个精雕细琢过的错误的模型来的准确,但是,如果我们认定大方向是对的,就应该坚持下去。(日心说开始并没有地心说准确。)
3. 大量准确的数据对研发很重要。
4. 正确的模型也可能受噪音干扰,而显得不准确;这时我们不应该用一种凑合的修正方法来弥补它,而是要找到噪音的根源,这也许能通往重大发现。

最大熵模型不要把所有的鸡蛋放在一个篮子里
最大熵(maximum entropy)模型:就是要保留全部的不确定性,将风险降到最小。最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要。)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。
去噪音法解决搜索引擎作弊重复关键词重复网页链接问题。

线性代数中矩阵运算解决文本处理中的分类问题

贝叶斯网络在图像处理、文字处理、支持决策等方面有很多应用,。我们利用贝叶斯网络,可以找出近义词和相关的词,在google搜索和google广告中都有直接的应用【贝叶斯网络:其每个状态值取决于前面有限个状态,描述事件之间的相关性】

布隆过滤器在垃圾邮件过滤的应用

密码学的数学原理中加密算法。简单的算法,可以完成复杂的加密。

动态规划基于汉字输入法和全球导航的应用。看似不同的应用后面却是完全一样的数学模型。

数学的妙处在于它的每一个工具都具有相当的普遍性,在不同的应用中都可以发挥很大的作用。

看见

一个礼拜的时间,看了一遍。半个月的时间又看了一遍。
好多事情,好多故事,采访访谈,电视中看到的可能只是一部分、书中也只能看到一部分。

【别当了主持人就不是人了】,满是新工作的初生牛犊症状,是有多无知才能这么无畏,最欣赏这句。
但凡能做到,多难,至少刚刚工作的我,一切都是按部就班,少了一份独闯的劲儿。
【非典调查】。人们离死亡很近的时候,不是哭不是抗拒,而是茫然。当一个人真正关心另一个人时,才会忘记了自己。
突然想到,最近,我在开始重拾自己。以前都忘记了自己。
【双城的创伤】,六个孩子连续服毒。所有的人不相信孩子的世界会有什么,可是孩子,也有他们的世界,也有他们的感情,也需要被理解。
【对抗性调查】,善良的人做“对抗性”采访,不会跃跃欲试地好斗,但当决定看护真相的时候,是绝不撤步的对峙。其实,善良的人们是最时候做对抗性采访,因为他们敢于坚持。
【我们终将浑然难分,像水溶于水中】,吸毒的女人被捕送去戒毒所,被戒毒所戒毒所卖去卖淫。被举报后,之后戒毒所变成精神病院继续开着,领导都没换。被无辜羁押了28年的谢洪武,不被世人认同的同性恋者,中国音乐学院的招生内幕。
生和死,苦难和苍老,都蕴涵在每一个人的体内,总有一天我们会与之遭逢,我们终将浑然难分,像水溶于水中。
【沉默在尖叫】女性暴力的犯罪记录中,杀丈夫的比重高达70%。
采访是生命间的往来,认识自己越深,认识他人越深。他人经受的,我必经受。
【山西山西】是先发展经济还是保护环境。而今,儿时所有美好的环境,现今都已经变成美好的回忆。
【我只是讨厌屈服】为什么要遵守这个世界上一切的墨守成规,我们分明可以改变,为何要屈服。
【许多事情,是有人相信,才会存在】
【真相常流失于涕泪交加中】准确是新闻最重要的手艺,而自我感动,感动先行是准确最大的敌人,真相常流失于涕泪交加之间。
……未完待续

年轻的战场-读书笔记

虽然书名是我的哈佛日记,可我更加想把读书笔记名为年轻的战场,因为那是年轻的阅历。
书的作者,亲爱的偶像要结婚了,五年的婚姻,1月1号的婚礼,微博上面满满都是祝福和感恩。这一刻,突然感觉2012,真的是充满幸福的一年,末日都过去了,大家都在尽享幸福和快乐。
关于书,更多是坚持,是耐性,是勤奋,是勇敢。
更多的是,我看到的关于婚姻,关于一生的承诺。婚姻是相互信任,相互体谅,相互修复,相互影响,相同的价值观和相处之道。真正的爱是不需要隐藏,不留退路,一起努力,彼此珍惜。美好的婚姻,是让两个人都有奋斗的心,让两人共同成长。家是两个人经营的结果。
09年到现在,整整四年,正能量,规划的人生,年轻的战场,仿佛每一刻不知所措的时候,都是这些信念在鼓励自己。人要获得多少,就得承受多少。感恩所有,and 加油自己。welcome 2013

失控-全人类的最终命运和结局

花了好几周,才把Kevin Kelly的Out of control 这本书上册(今天才发现,原来还分上下两册…)看完,好多东西好没有看全,都是匆匆过了一眼。
第一感觉,生物学家,物理学家,化学家,各种科学家把这几千年的生物,各种自然想象研究了一番,最后发现,其实,全人类,全世界的发展,重来没有预料,都是在一个失控中。
突然在想,为什么人类的行动和思想慢慢禁锢在一个匣子里面,其实,生物发展的环境应该是自由。生物进化的唯一原因,就是变异和变化。现在,貌似人类禁止了这一变化,总是在规范、统一、一致。
失控,貌似多见于电影场景中:侏罗纪,黑客帝国…失控