自然语言、描述性文本能够挖掘吗?

发布网友发布时间：2022-04-23 15:17

共1个回答

热心网友时间：2023-07-02 19:48

有人告诉我自然语言和描述性文本不能做数据挖掘。我总觉得有点不对劲。昨天读《计算机世界》，似乎找到了答案。摘录如下：一种更好的方式是让机器能从相关文章中自动地找出这些关键词。这种自动抽取的过程如何实现呢？简单可行的方法是借助奇异值分解（SDV）技术来完成。奇异值分解（SDV）是线性代数中一种重要的矩阵分解方法，用于将任意矩阵分解为三个具有良好性质的矩阵的乘积（即酉矩阵、对角阵、酉矩阵）并广泛应用于最优化问题、特征值问题、广义逆矩阵等问题中。在进行关键词抽取时，基于词在句子中出现的频数或TF-IDF可以生成“词-句子”关联矩阵，它描述了所有的词与句子的关联性，通过对其进行SDV分解，可以实现词在语义类空间上的投影，投影的坐标值描述了词与相应的语义类之间的相关性，值越大，相关性也就越强。通过对这些相关性进行分析与处理，最终可以得到词的权重并实现关键词的自动抽取。大数据的应用远远不止于这些，其中应用于自然语言处理。可以实现很多功能，如自动文本摘要、信息传播可视化、情绪化。之所以能够操纵大数据，是同时具备算法和平台分布式计算两方面核心能力，，前者帮助我们聪明地思考和组织数据，后者帮助我们大规模处理这些碎片化信息，将稀释的数据价值汇聚加工成新的生产力。——“豆粕口罩禽流感——大数据告诉你H7N9背后的故事”计算机世界2013.17因为我没有理工科出身背景，对奇异值分解（SDV）技术、矩阵分解方法等还弄不明白。但我相信这些绝不是空穴来风。