从100万篇文档中找出相似度较高的文档对