Hegel2011的博客

读书 - 工作 - 生活 - 笔记

数学之美

在京东买的六本书都到了.这次的书普遍不是很厚.当然,3本项目管理的书加起来还是很厚的.也要有600多页.

分了2本给同事,自己抱起<数学之美>先看了起来. 花了一周的时间, 这本书基本看完了. 先说说篇幅.

正文是256页,但是排版是很松的, 有点像经管类书籍的排版, 所以这本书的篇幅并不大.主要是27个章节, 实际就是27片文章, 大部分的来源是google黑板报. 吴军博士深入浅出的能力很强,所以大部分时候不需要大家去推算数学公式, 他会把公式的含义和影响解释的很清楚. 这是他的本事. 通篇来看, 文章大致可以 分成下面几类:

  • 信息论的基础知识
    这部分主要包括第一章的信息, 文字和数字, 有些细节很有趣, 比如罗马数字原来里面含有加减法的含义
  • 数学原理的应用
    这个主要是以google在语言分析 语音分析 拼音输入法 是集中体现了马尔科夫链和统计学; 余弦定理与新闻分类/文章分类/自动分类
  • google的技术
    数学知识只是用于帮助解决计算复杂度, 而不是作为解题的思路和理论基础.集中体现在PageRank, TF-IDF中
  • 密码学的知识
    当然,密码学本身也用到了数学尤其是数论的内容.包括用指纹减少信息量,提高存储和比对的效率,
  • 一些知名的算法
    主要有维特比
  • 名人传记
    这部分总有自抬身价的意思.特别是开复开复的出现很多, 也算是sns互吹了.有特色的就是这些专家大都还处于这个时代,相当有新鲜感, 当然,维特比这个算法也被当做经典算法我只能说很多东西其实运气更加重要.第一个发现的人得到特别的奖赏也是应该的.

整本书有些部分是让我第一次了解了语音/文章识别用到的其实都概率推测的东西, 以及google的页面排序和TF-IDF这些指标产生. 而有些内容则触发为进一步 了解其他知识.比如昨天刚刚搞懂的频分/时分/码分复用, 这东西第一次在网络课上听到已经是十二三年前了, 即便考研的时候也未弄懂, 而这次在介绍维特比 和cdma的时候有看见了,然后再看看谢希仁的教材,竟然就懂了. 那个向量正交真的是很精巧的设计, 这样才使得接收端收到叠加信息后还能还原出来.

除了介绍一些新颖的做法和能引发看其他内容的兴趣, 文章也提到了一些google的文化甚至美国工程师的文化.实际上无论美国还是中国,第一流的工程师还是 向往在大公司工作, 只是美国有那么一部分喜欢创业的工程师, 中国这个比例少一些而已.否则google也不会起先山寨遍地后来又系统化地解决问题.其实两边 一流的工程师或者某个领域的权威专家都是愿意给大公司打工,也只有大公司才养得起这些高手吧.

整本书让人眼界打开了不少, 也能引起自己学习其他内容的兴趣, 这当然就是一本好书了. 不过,这本书的内容毕竟讲的都比较浅显, 并不是一本很耐看的书. 属于速食图书里面的营养品.提取一下主题,感兴趣的还是要自己继续找材料摸索练习才行.但是无论如何,这都是一本好书,而且很值得一看,投入产出比相当高 的一本书.否则也不值得为了它写一篇书评.

此外, 就是第一次了解了吴军博士. 他的履历确实相当漂亮, 文字写的也很棒, 这样的人才应该是中国IT业界的领军 人物.才是中国一流大学工程师的代表.

最后是分类做的一些笔记.

  • 科普

文字按照意思有聚类, 类似机器学习的聚类, 副作用是有歧义性.

罗塞塔石碑上3种文字提供了冗余和翻译的基础.

数字从文字中被单独抽象出来表达.大部分是十进制的, 不过 也有玛雅人用的20进制,所以他们的一个世纪是400年.
中国数字的编解码规则是乘法.

托勒密的60个圆的点球模型,实现了365天+4年一润的模型.格里格拉教皇对日历闰年的调整,世纪末最后一年的闰年取消,每400年加一个闰年. 哥白尼的日心说用来更少的圆8-10个,但误差极大,直到开普勒改成这几个椭圆才最终令人信服.牛顿最后又加上了万有引力.

  • 马尔科夫与动态路径

自然语言的处理从设立规则发展到了统计算概率, 就是对最终结果进行对比, 这个过程走的很漫长.
语音搜索和自动翻译用的技术是一样的,全部用的统计语言模型.最后落实到出现的次数比 P(wi|wi-1) = #(wi-1, wi)/#(wi-1) 分词也是一样的,目的就是计算出每种分词后概率最大的那个.

马尔科夫是用于概率简化,把前面n个条件简化成一个或者稍多一点的.

动态规划其实就是一种维特比算法, 然后再加入按group分成队列的话, 就能应付大部分请求了.
拼音输入法的原理也是概率统计推断, 从起点到终点找出最短路径.
条件随机场与句法分析,让被分析的内容成为句子的概率最大.
维特比和维特比优化路径微观算法.

  • PageRank
    信息熵: log32=5, 其实就是需要几位bit才能表示状态, 这也决定了搜索所需要的次数. H=-(p1.logp1 + p2.logp2 + ... + p32.logp32)

信息的作用是消除一部分不确定性, 通过寻找相关的信息来消除.自然语言的处理就是寻找相关信息的过程.

搜索引擎的基本原理是对关键字做索引,然后用布尔代数计算结果.

网页质量信息 & 网络相关性信息
质量是根据被引用的链接数量来做排序因子的, 可以看出他们是有学术背景的. Page眼中,页面就是一个节点, 链接就像一个弧, 把互联网用矩阵来进行描述. 排名公式: Bi = AxBi-1
其中Bi是N维列向量, A是一个N维方矩阵, 将上公式反复迭代10次,可得到收敛的结果,起初和假定B的每个数字都是1/N. A的值则是各元素(各网页)之间的链接 数字列表.
单文本词频(Term Frequency), 是在文章中出现的次数/总词汇数. 简称TF
实际应用时又有加权处理.权重大小根据该词在所有页面中出现的次数来确定,出现多的权重就小,出现少的权重就大. 简称IDF, 公式为log(D/Dw).
Tf-IDF = TF1xIDF1 + ... + TFNxIDFN
IDF之所以使用Log,其实就是采用每个词的信息量作为权重,而根据香农的熵公式,I(w) = -P(w)logP(w)

  • 向量相关

余弦定理与新闻分类,实质就是计算两个向量的夹角, 以明确相关度.计算公式就是两个向量内积然后除以向量模的乘积.

反SEO的一些内容,本质就是要把噪音去除, 比如把出站链接相似的网站屏蔽

CDMA技术. 海蒂拉马尔发明的实际上是频率跳变的码流, 然后才被用来当做复用. 这里面正交向量当做code的设计思路使得多种信号在叠加后也能按各个code分别进行还原, 这个整个设计最 重要的地方.也在此,进一步明白了频分/时分/码分的区别和特点.吴军至少写书的时候还不懂cdma背后的数学原理,否则他肯定会谈的.

文本自收敛分类.其实就是不停迭代计算向量.使得各类内部的距离d最短,而类间距离D最长.

  • 随机数的映射

信息指纹的核心思想是通过随机数函数把内容转换为较短的随机数,这样可以用来做判定集合相同/反盗版/判定集合基本相同.即提取对应的信息保持足够简短, 这样的好处是存放和检索的成本大大下降.MD5的重复概率只有一千八百亿亿次,2的六十四次方.

布隆过滤器.其实就是把原始信息投射到一个几亿字节的几位中去.然后通过判断这几位是否为1,来明确后来的信息是否在要过滤的集合中.本质上就是一种随机数的算法.弱点是有一定的假阳性.

  • 其他

爬虫其实就是按图论进行遍历.欧拉七桥的图论定理.每一个顶点的度必须是偶数.具体有广度优先还是深度有限?页面分析和URL提取?URL如何存放的瓶颈?

密码学基础,公钥私钥

人物

贾里尼克,捷克犹太人,吴军美国大学语言语音处理中心的创始人
马库斯,自然语言转向统计方式处理的另一个教父级别的人物, 还建立了语料库,让大家有一个平等的环境进行算法比较测试
辛格博士, AK47, 简单有效

推荐书单

信息论基础 Cover
google.html
地址分析的有限状态机编写,还有基于概率的有限状态机
相似hash的算法(Simhash)

Included file 'twitter_sharing.html' not found in _includes directory