发布网友 发布时间:2022-04-23 15:17
共1个回答
热心网友 时间:2023-07-02 19:48
有人告诉我自然语言和描述性文本不能做数据挖掘。我总觉得有点不对劲。昨天读《计算机世界》,似乎找到了答案。摘录如下: 一种更好的方式是让机器能从相关文章中自动地找出这些关键词。这种自动抽取的过程如何实现呢?简单可行的方法是借助奇异值分解(SDV)技术来完成。奇异值分解(SDV)是线性代数中一种重要的矩阵分解方法,用于将任意矩阵分解为三个具有良好性质的矩阵的乘积(即酉矩阵、对角阵、酉矩阵)并广泛应用于最优化问题、特征值问题、广义逆矩阵等问题中。在进行关键词抽取时,基于词在句子中出现的频数或TF-IDF可以生成“词-句子”关联矩阵,它描述了所有的词与句子的关联性,通过对其进行SDV分解,可以实现词在语义类空间上的投影,投影的坐标值描述了词与相应的语义类之间的相关性,值越大,相关性也就越强。通过对这些相关性进行分析与处理,最终可以得到词的权重并实现关键词的自动抽取。 大数据的应用远远不止于这些,其中应用于自然语言处理。可以实现 很多功能,如自动文本摘要、信息传播可视化、情绪化。 之所以能够操纵大数据,是同时具备算法和平台分布式计算两方面核心能力,,前者帮助我们聪明地思考和组织数据,后者帮助我们大规模处理这些碎片化信息,将稀释的数据价值汇聚加工成新的生产力。——“豆粕 口罩 禽流感——大数据告诉你H7N9背后的故事”计算机世界2013.17因为我没有理工科出身背景,对奇异值分解(SDV)技术、矩阵分解方法等还弄不明白。但我相信这些绝不是空穴来风。