数学之美--个人笔记

xiaoxiao2021-02-28  34

10、PageRank

又称,Google的民主表决式网页排名技术。——衡量网页质量的方法 PageRank算法的原理: 便于理解,我引用书上的一个例子:比如我们要找李开复博士,那么有100个人举手说自己是李开复博士。那么谁是真的呢?也许有好几个是真的,但即使如此谁有是大家真正想找的拿个呢?如果大家都说在某地的某人是真的,那么他几乎就是真的。根据这例子。我们要找一个网页,会给出很多的相关网页,这些网页也许和我们想找的网页或多或少的有些联系,但是,哪些才是我们最想找的呢,如果一个网页被很多个网页所连接,那么这个网页收到的承认和信赖就比较高,这个可能就是我们最想找的。此外,在互联网上,如果一个网页被很多其他的网页所连接,说明它收到普遍的承认和信赖,这个网页的排名就高。因此,排名高的网页的链接更可靠,我们就给这些网页的链接更高的权重。一个网页的排名应该来自于,指向它的网页的权重之和。因此,可根据网页的PageRank来衡量网页的质量,然后进行排名。当然,这个算法需要很强的数学功底,感慨之余,我们更要重视自己的数学能力。

11、确定网页和查询的相关性

在以前,技术和算法,对于确定网页和查询的相关性的重要性,要高于数据。然而,在今天,这个大数据的背景下,很多商业搜索引擎已经有了大量的用户点击数据,因此,对搜索相关性贡献最大的是,根据用户对常见搜索点击网页的结果得到的概率模型。如今,影响搜索引擎质量的诸多因素,除了用户的点击数据外,大致可归纳为一下四大类:

完备的搜索引擎。对网页质量的度量。如PageRank。用户偏好。确定一个网页和某个查询的相关性的方法。

搜索关键词权重的科学度量TF-IDF: 不同的网页字数各不相同,因此仅仅使用关键词在网页中出现的次数,来确定相关性是不可续的。因此,要对关键词的次数进行归一化。用关键词的次数除以该网页的总字数,把这个商称为关键词的频率,或者 单文本词频。将每个词的词频加和得到词组的单文本词频。但是,这种方法有两个漏洞:第一个是:如,的 是 中 对 ……之类的词对于主题的确定几乎没有什么作用,称它们为停止词。第二个是:如,应用,解决……之类的通用词对于主题的确定作用也很小,但是却又占了很大的比例。因此,对每一个词,给一个权重:规定:一个词预测主题的能力越强,那么这个词的权重就越大,反之,权重越小。停止词的权重为0。在信息检索中,使用最多的权重就是“逆文本频率指数”-IDF。它的公式为“log(D/D_w)”D表示全部网页数,D_w表示含有特定词的网页数。可以想象,如果一个词在所有的网页中都出现,也就是D=D_w那么IDF=0,这个词的权重为0。符合我们的直觉。到此,我们关于相关性的计算公式,就可以更加改进了:每个词的词频(TF)乘以该词的权重(IDF),然后求和即可。这就是TF-IDF。TF-IDF是对于搜索引擎重要性的度量,具有很强的理论依据,因此,即使对搜索引擎不是很精通的人,采用TF-IDF做出的效果也不会太差。

12、有限状态机和动态规划

—–地图与本地搜索的核心技术 先介绍一下智能手机的定位和导航功能:

利用卫星定位地址的分析和识别根据用户输入的起点和终点,规划最短的路线

利用卫星定位,传统的导航仪就可以做到。 地址的分析和有限状态机: 地址的分析,还是自然语言处理的问题,使用上下文有关的文法。但是上下文有关文法分析耗时且复杂,并且还有很多情况覆盖不了。有限状态机可以很好的实现地址的识别和分析。有限状态机是一个有向图,它由有限个状态(结点)和有向弧组成。有限状态机都有一个起始状态和终止状态,以及中间的若干状态。每一条弧都带有一个从上一个状态到下一个状态的条件,当满足这个条件时就可以实现走动,若不满足条件 则报错。使用有限状态机关键要解决两个问题,一个是:通过一些有效的状态建立有限状态机。第二是:给定一个状态机后,地址字串的匹配算法。但是,实际应用过程中,如果用户输入了错误的字符怎么办?为了解决这个问题,我们希望看到可以进行模糊匹配。科学家们提出了基于概率的有限状态机,其实基于概率的有限状态机和离散的马尔科夫模型是等价的。<建议:有限状态机的程序不是很好写,它要求编程者既懂得里面的原理和技术,又有很强的编程能力,因此,还是直接采用开源的代码比较好> 全球导航和动态规划: 图论:一个抽象的图包括很多个结点,以及连接这些结点的弧。如果再考虑这些弧的长度,也就是给它们加上权重,那么这就是一个加权图。 图论中一个很常见的问题是,找两个结点A,B之间最短的路径,下面介绍两种方法:1,最直接,也就是最笨的方法,就是把所有的可能的路线都找出来,然后再找到最优的那一个。当考虑到计算复杂度的时候,这种方法是显然不行的,因为随着结点的增长,路径会呈指数式增长。2、动态规划,我记得很早的时候,学习过线性规划,这两个似乎有着很大的相似性。首先,我们用一条拟合结点的线大致将两个结点间的所有的路径一分为二,那么,肯定此线上必然存在一个结点D是所求两个结点A,B的路径必然经过的点,因此,我们可以求其中一个结点A,到D的最短路径。然后再从D到B的路径按照上述类似的方法一份为二,直到到达B。最后可以计算得出,该方法的计算复杂度是非常符合我们的要求的。 有限状态传感器: 有限状态传感器的特殊性在于,每个状态是由输入和输出的符号定义的。如果这些输入和输出的可能性的不同,即赋予了不同的权重,那么这就是加权的有限状态传感器。

先帮助用户解决80%的问题,然后再慢慢解决剩下的20%的问题。——-阿米特·辛格博士

转载请注明原文地址: https://www.6miu.com/read-2629778.html

最新回复(0)