NLP-Chp12-文本分类、聚类和情感分析

2018-07-18 NLP 0 Word Count: 278(words) Read Count: 1(minutes)

1. 文本分类

文本表示

向量空间模型（Vector Space Model, VSM）也称为词袋模型（Bag-of-Words Model, BOW）

特征选择

文档频率（Document Frequency, DF）
互信息（Mutual Information, MI）
信息增益（Information Gain, IG）
Chi-Square统计（Chi-Square Statistics，CHI）

分类算法

监督学习
- 生成式模型
  - 朴素贝叶斯（Naïve Bayes）
- 判别式模型
  - 线性判别函数（Linear Discriminate Function）
  - 支持向量机（Support Vector Machine）
  - 最大熵模型（Maximum Entropy）
无监督、半监督学习

模型表示

用参数进行建模（构建目标函数）
学习算法

最大似然、最大后验（生成式模型）
梯度下降、牛顿法（判别式模型）
推断

决策/预测规则

2. 文本聚类

文本聚类算法

分割法

K-means算法
K-medoids算法
CLARANS算法
层次法

BIRCH算法
CURE算法
基于密度的方法
基于网格的方法

3. 情感分析

观点挖掘与倾向性分析相关任务

观点及倾向性识别

情感识别（Sentiment Identification）
观点要素抽取

观点属性抽取（Opinion Attribute Extraction）
观点摘要（Opinion Summarization）
观点检索

本文链接： http://example.com/2018/07/18/NLP-Chp12-%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E3%80%81%E8%81%9A%E7%B1%BB%E5%92%8C%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

xmz

NLP-Chp12-文本分类、聚类和情感分析

1. 文本分类

文本表示

特征选择

分类算法

2. 文本聚类

3. 情感分析

xmz