机器学习算法怎么使用中文语料
发布网友
发布时间:2022-04-30 19:55
我来回答
共1个回答
热心网友
时间:2022-06-30 08:17
这个事情很简单
首先得有词汇特征 就是一组词语的集合
比如特征集可以是
[这,个,事情,简单,机器,学习,中文,语料]
有了这个以后就可以表示句子了
例如:
“这个事情很简单”
[1, 1, 1, 1, 0, 0, 0, 0]
"机器学习算法怎么使用中文语料"
[0, 0, 0, 0, 1, 1, 1, 1]
看出啥意思了吧,对于一个句子,特征词出现的位置就标1,不出现就标0。所以句子就成了向量,用欧氏距离、余弦夹角等等方法就可以计算两个向量的相似度,那就对应句子的相似度了。
这里面特征词选择方法有很多,常见的有TF、DF、TF-IDF等等,也可以人为指定。
向量里面表的数值也有很多算法,0、1是比较适合情感倾向分析的标法。
PMI指的是点互信息
PMI(a, b)=p(a,b)/(p(a)p(b))
假设有一个句子集合,总量为N
出现a次数为A,出现b次数为B
a和b同时出现在同一句话中的次数为C
则有p(a)=A/N, p(b)=B/N, p(a,b)=C/N
带入到公式里就算出PMI了。
计算PMI时,A、B、C、N的统计方法有很多策略,根据实际情况定。
相关资料你可以看一下《统计自然语言处理》 宗成庆 写的。
若想了解更牛*的办法的话 先把统计分析、实分析、泛函分析、变分分析、随机过程、矩阵论、向量空间论、模糊数学、图论、代数图论、数学分析、统计机器学习、模式识别、神经网络、贝叶斯网络、自然语言处理、社会网络这些都学好,就可以独步江湖 称霸机器学习领域了~~哈哈~~追问那如果我要用SO-PMI算法分析词语情感倾向的话,是不是应该选取种子词,然后分别统计候选词和种子词在特定文本中的词频,再分别计算每个候选词的PMI值?假设我手上的数据是一个新闻网站某个月的某个频道的所有新闻报道,这个词频统计的基数是不是太大了些?
先谢谢了~
追答是这么操作的~量大的话 可以考虑分时间段分类别统计 这种方法分的细些 效果好~再不行就搞分类