(转 )十分钟学习自然语言处理概述

(转 )十分钟学习自然语言处理概述

作者:白宁超

2016年9月23日00:24:12

摘要:多年来自然语言处理行业发展朝气蓬勃,市场以广泛。笔者学习吧写了众多稿子,文章深度层次各异,今天为某种需要,将稿子全部看了一样全套开个规整,也可以叫概述。关于这些题目,博客里还有详实的章去介绍,本文只是针对其各个组成部分高度概括梳理。(本文原创,转载注明出处十分钟学习自然语言处理概述 
)

1 什么是文件挖掘?

文本挖掘是信息挖掘的一个钻分支,用于因文本信息的知发现。文本挖掘的准备工作由文本收集、文本分析及特性修剪三个步骤做。目前研究与运用最多之几种植文本挖掘技术有:文档聚类、文档分类以及摘要抽取。

2 什么是自然语言处理?

自然语言处理是计算机对领域与人工智能领域中的一个关键趋势。它研究人及计算机中用自然语言进行实用通信的论战和方。融语言学、计算机是、数学等一体的不易。
自然语言处理原理:形式化描述-数学模型算法化-程序化-实用化
语音的自动合成与识别、机器翻译、自然语言理解、人机对话、信息搜索、文本分类、自动文摘等。

3 常用中文分词?

中文文本词与歌词中没有像英文那样有空格分隔,因此不少时中文文本操作都涉及切词,这里整理了部分华语分词工具。
Stanford(直接用CRF 的方,特征窗口也5。) 

汉语分词工具(个人推举)

哈工大语言云

庖丁解牛分词

天分词  ICTCLAS(中科院)汉语词法分析体系 

IKAnalyzer(Luence项目下,基于java的) 

FudanNLP(复旦大学)

4 词性标注方式?句法分析方法?

原理描述:标注一样首稿子中之词,即告句标注,使用标注方法BIO标注。则相序列X就是一个语料库(此处假而同一首文章,x代表文章中之各级一样句,X是x的汇),标识序列Y是BIO,即对应X序列的鉴别,从而得以根据标准概率P(标注|句子),推测出对的词标注。  

妇孺皆知,这里对的凡行状态,即CRF是故来号还是分序列结构数据的概率化结构模型,CRF可以用作无往图模型或马尔科夫以机场。
 
用过CRF的还了解,CRF是一个行标注模型,指的凡将一个词序列的每个词起及一个符号。一般经过,在歌词的左右始发一个微窗口,根据窗口中的词,和待标注词语来实现特征模板的领到。最后经特色的结决定要由之tag是啊。

5 命名实体识别?三种主流算法,CRF,字典法和混方法  

1 CRF:在CRF for Chinese
NER这个任务中,提取的特点大多是该词是否为中国人数誉为姓氏用配,该词是否为中华人叫做名用字之类的,True
or
false的性状。所以一个保险的百贱姓氏的阐发就老根本呀~在境内专家举行的浩大试中,效果最好好的真名可以F1测度达到90%,最差之机关称及85%。
 

2
字典法:在NER中即是将每个字都当起的字放到trie-tree中翻同一遍,查及了便NE。中文的trie-tree需要进行哈希,因为中文字符太多矣,不像英文就26单。
 

3
对六类不同之命名实体采取不雷同的一手开展拍卖,例如对于人名,进行字级别之尺度概率计算。
  汉语:哈工大(语言云)上海交大    英文:stanfordNER等

7 冲主动上的中医文献句法识别研究  

7.1 语料库知识?       

语料库作为一个或基本上只利用目标一旦专门收集的,有一定结构的、有意味的、可被电脑程序检索的、具有自然范围之语料的汇。
   

语料库划分:① 时间分开② 加工深度划分:标注语料库和非标注语料库③
结构划分⑤ 语种划分⑥ 动态更新程度划分:参考语料库和督查语料库    

语料库构建规范:①   代表性②   结构性③   平衡性④   规模性⑤  
元数据:元数据对       

语料标注的利害

①   优点: 研究好。可选用、功能多样性、分析清楚。

②   缺点:
语料不客观(手工标注准确率高而一致性差,自动或电动标注一致性高要准确率差)、标注不等同、准确率低

 7.2 条件仍机场解决标注问题?      

极仍机场用于序列标注,中文分词、中文人名识别和歧义消解等自然语言处理中,表现出非常好之功用。原理是:对加的相班以及标序列,建立标准概率模型。条件仍机场可用来不同预测问题,其上方式一般是特大似然估计。
     

自家爱中华,进行排标注案例教学条件仍机场。(规则模型和统计模型问题)   

格仍机场模型呢需缓解三只主导问题:特征的抉择(表示第i个观察值为“爱”时,相对yi,yi-1的符分别是B,I),参数训练以及解码。
    

7.3 隐马尔可夫模型      

利用:词类标注、语音识别、局部句法剖析、语块分析、命名实体识别、信息抽取等。应用为自然科学、工程技术、生物科技、公用事业、信道编码等大多单领域。
  

马尔可夫链:在肆意过程中,每个语言符号的出现概率不互相独立,每个随机试验的即状态依赖让以前状态,这种链就是马尔可夫链。
  

多元马尔科夫链:考虑前一个言语符号对后一个语言符号出现概率的熏陶,这样得出的语言成分的链叫做同再马尔可夫链,也是次首位语法。二重马尔可夫链,也是三头条语法,三更马尔可夫链,也是四头语法
     

隐马尔可夫模型思想之老三单问题 

题材1(似然度问题):给一个HMM λ=(A,B)
和一个考察序列O,确定考察班的似然度问题 P(O|λ) 。(向前算法解决)
         

问题2(解码问题):给得一个观序列O和一个HMM
λ=(A,B),找来无限好的隐形状态序列Q。(维特比算法解决)          

题材3(学习问题):给得一个观序列O和一个HMM中的状态集合,自动学习HMM的参数A和B。(向前向后算法解决)

7.4 Viterbi算法解码      

思路:

1 计算时间步1的维特比概率

2 计算时间步2的维特比概率,在(1) 基础测算

3 计算时步3的维特比概率,在(2) 基础测算

4 维特于反朝追踪路径         

维特比算法与前进算法的分:     

(1)维特比算法要当眼前路径的几率中精选最好充分价值,而进算法则计算其总额,除此之外,维特比算法和进算法一样。
    

(2)维特比算法有反向指针,寻找藏身状态路径,而上算法没有反向指针。
     

HMM和维特比算法解决随机词类标注问题,利用Viterbi算法的中文词法标注  

7.5 序列标注方式       参照者词性标注    

7.6 模型评价办法      

模型:方法=模型+策略+算法   

范问题提到:训练误差、测试误差、过拟合等问题。通常用学习道对未知数据的预计能力称为泛化能力。

范评价参数:      

准确率P=识别是的数目/全部识别出底数码   

错误率 =识别错误的多少/全部辨出底多寡   

精度=识别正确正的数量/识别是的数      

召回率R=识别正确的数码/全部没错的总量(识别出+识别不生的)   

F度量=2PR/(P+R)      

数据正负均衡适合准确率    数据不都符合召回率,精度,F度量   

几栽模型评估的道:

K-折交叉验证、随机二不善抽样评估等    ROC曲线评价两个模型好坏  

8 根据文本处理技术之研究生英语等级考试词汇表构建系统  

就对2002–2010年17仿照GET真题的主干单词抽取。其中包括数据清洗,停用词处理,分词,词频统计,排序等常用方法。真题算是结构化数据,有早晚规则,比较便于处理。此过程实际上就是是数清洗过程)最后把所有单词集中汇总,再错过除要:a/an/of/on/frist等停用词(中文文本处理呢待针对停用词处理,诸如:的,地,是等)。处理好之独词进行去还和词频统计,最后重复利用网络工具对英语翻译。然后根据词频排序。
   

8.1 Apache Tika?      

Apache
Tika内容抽取工具,其强大的处在当给得处理各种文件,另外省您再多之日子因故来做重要的事务。
  

Tika是一个内容分析工具,自带全面的parser工具类,能分析基本有常见格式的文书
  

Tika的效用:•文档类型检测   •内容提取  •元数据提取  •语言检测

8.2 文本词频统计?词频排序方法?      

算法思想:

1 历年(2002—2010年)GET考试真题,文档格式不一。网上征集                

2
对具备格式不一的文档进行统计处理成txt文档,格式化(去除汉字/标点/空格等非英文单词)和去停用词(去除891个停用词)处理。
               

3
对保洁后底光词进行去又以及词频统计,通过Map统计词频,实体存储:单词-词频。(数组也得,只是对特别大之多少,数组存在越界问题)。排序:根据词频或者字母

4
提取中心词汇,大于5之以及小于25蹩脚的数额,可以协调制订阈值。遍历list<实体>列表时候,通过获取实体的词频属性决定选取词汇表尺寸。
               

5 最后一步,中英文翻译。     

9 俭朴贝叶斯模型的文书分类器的统筹及贯彻  

9.1 朴素贝叶斯公式  

0:喜悦  1:愤怒 2:厌恶 3:低落  

9.2 朴素贝叶斯原理  

–>训练文本预处理,构造分类器。(即对贝叶斯公式实现文件分类参数值的求解,暂时未知道没关系,下文详解)
 

–>构造预测分类函数  

–>对测试数据预处理  

–>使用分类器分类    

对一个初的教练文档d,究竟属于如齐季个种类的哪个项目?我们可因贝叶斯公式,只是这转变成现实的目标。
   

> P( Category | Document):测试文档属于某类的几率    

> P(
Category)):从文档空间被随意抽取一个文档d,它属于类别c的概率。(某类文档数目/总文档数目)
   

> (P ( Document | Category
):文档d对于让定类c的几率(某类下文档中单词数/某类中终究的单词数)    

>
P(Document):从文档空间被任意抽取一个文档d的票房价值(对于每个项目都同样,可以忽略不计算。此时为呼吁最好老似然概率)
   

>  C(d)=argmax
{P(C_i)*P(d|c_i)}:求出近似的贝叶斯每个类别的概率,比较获取最要命的几率,此时文档归为无限可怜概率的一样近似,分类成功。
 

综述

1.  优先收集处理数据集(涉及网络爬虫和国文切词,特征选取)      

2.  预处理:(去丢停用词,移除频数过些微之词汇【根据具体情况】)      

3.  实验过程:

数码集分两片(3:7):30%作测试集,70%作训练集         

增置信度:10-折交叉验证(整个数据集分为10当卖,9卖联合为训练集,余下1份作测试集。一共运行10整,取平均值作为分类结果)优缺点对比分析
     

  1. 评说标准:          

宏评价&微评价          

平因子

9.3 生产模型和识别模型区别       

1)生产式模型:直接对旅分布进行建模,如:隐马尔科夫模型、马尔科夫以机场等
      

2)判别式模型:对标准分布进行建模,如:条件仍机场、支持为量机、逻辑回归等。
         

转移模型优点:1)由同分布2)收敛速度较快。3)能够应付隐变量。
缺点:为了估算准确,样本量和计算量大,样本数较多时候不建议用。
         

分辨模型优点:1)计算和样本数量少。2)准确率高。缺点:收敛慢,不能够对隐变量。
 

9.4 ROC曲线      

ROC曲线又给接受者操作特征曲线,比较学习器模型好坏可视化工具,横坐标参数假正例率,纵坐标参数是当真例率。曲线更拢对角线(随机猜测线)模型越糟糕。
     

哼之范,真正比例较多,曲线应是陡峭的从0开始升高,后来遇见真正比例越来越少,假正比例元组越来越多,曲线平缓变的愈发水平。完全正确的型面积为1

10 统计学知识

信息图形化(饼图,线形图等)

集中趋势度量(平均值 中个数 众数 方差等)

概率

排列组合

分布(几哪里二桩泊松正态卡方)

统计抽样

样本量

假设检验

回归

11 stanfordNLP

句子理解、自动问答系统、机器翻译、句法分析、标注、情感分析、文本及视觉场景以及模型,
以及自然语言处理数字人文社会是中之动和测算。

12 APache OpenNLP

Apache的OpenNLP库是自然语言文本的处理依据机器上的工具包。它支持不过普遍的NLP任务,如断词,句子切分,部分词性标注,命名实体提取,分块,解析及替代消解。

句子探测器:句子检测器是用以检测句子边界

标志生成器:该OpenNLP断词段输入字符序列为标记。常是就是由空格分隔的单词,但为产生两样。

名称搜索:名称查找器可检测文本命名实体和数字。

POS标注器:该OpenNLP
POS标注器使用的概率模型来预测是的POS标记出了标签组。

细节化:文本分块由除以单词句法相关部分,如称词基,动词基的契,但从未点名其内部结构,也无那于主句作用。

分析器:尝试解析器最简易的法是于命令行工具。该工具就用于演示与测试。请从今我们网站上的英文分块

13 Lucene

Lucene是一个基于Java的全文信息搜索工具确保,它不是一个整机的追寻应用程序,而是为而的应用程序提供索引和摸索效果。Lucene
时凡 Apache Jakarta(雅加达) 家族中之一个
开源项目。也是眼前极端盛行的基于Java开源全文检索工具包。

脚下一度发生多应用程序的寻找效果是依据 Lucene ,比如Eclipse
帮助系统的搜索效果。Lucene能够为文本类的往往
据建立目录,所以你要把你而索引的多少格式转化的文本格式,Lucene
就可知对君的文档进行索引和寻找。

14 Apache Solr

Solr它是同种植开放源码的、基于 Lucene Java 的摸索服务器。Solr
提供了界寻找(就是统计)、命中显然显示并且支持多输出格式。它容易安装以及配备,
而且附带了一个基于HTTP 的管制界面。可以动用 Solr
的显现美好的着力搜索功能,也得针对她进行扩展从而满足公司之要。

Solr的特性包括:

•高级的全文检索功能

•专为大通量的网络流量进行的优化

•基于开放接口(XML和HTTP)的正规

•综合的HTML管理界面

•可伸缩性-能够使得地复制到另外一个Solr搜索服务器

•使用XML配置达到灵活性与适配性

•可扩大的插件体系 solr中文分词

15 机器上降维

重大特色选取、随机森林、主成分分析、线性降维

16 领域本体构建方式   

1 确定领域本体的规范领域及局面

2 考虑复用现有的本体

3 列有本体涉及领域中之严重性术语

4 定义分类概念和概念分类层次

5 定义概念中的涉嫌

17 构建领域本体的知工程措施:

一言九鼎特征:本体更强调共享、重用,可以吗歧体系提供平等种植统一的语言,因此本体构建的工程性更为明确。

道:目前为止,本体工程被于知名的几种植方法包括TOVE
法、Methontology方法、骨架法、IDEF-5法和七步法等。(大多是手工构建领域本体)

现状:
由于本体工程及目前为止仍处在对立不熟之流,领域本体的建设还处于探索期,因此构建过程中还设有着很多问题。

方式成熟度:
以上常用方法的顺序为:七步法、Methontology方法、IDEF-5法、TOVE法、骨架法。

相关文章