之前咱们在讲旅行舆情数据的清洗中说到清洗数据是为了清除非文本数据、去除指定无用的符号、无意义文本、长串数字或字母,清洗完之后要对数据来进行预处理,预处理一般会依照进行分词、去除停用词、变形词辨认和替换这些进程对数据来进行处理,以便后续的数据剖析更精确。咱们以故宫网络谈论的收集与预处理为例,来了解一下数据收集和预处理的进程。
2017年2月别离选取以群众点评为代表的综合性社区网站、以携程为代表的在线旅行社(OTA),以及以马蜂窝为代表的旅行交际网站3种不一样的旅行在线服务网站,来收集故宫的网络谈论。收集到群众点谈论数7922条,携程38810条,马蜂窝 10525条。
对收集的原始数据进行了去重、去除无意义数据(广告,无意义的超短文本)等数据清洗作业,终究获取到故宫的有用游客谈论数19526条,其间群众点评7922条,携程1019条,马蜂窝 10515条。
选用中科院核算所张华平、刘群研发的 ICTCLAS 分词词性标示一体化体系,分词后共得到1066474个词汇。选用一个较为通用的停用词表(含有 2825个停用词) 作初始停用词表去停用词;依据屡次主题发掘的试验成果对初始停用词表进行扩展,添加主题发掘试验成果中呈现的关于主题分类无意义的高频词,如故宫、北京等。第三步,语义去重与兼并。使用 Hownet 兼并相同意义的词或短语,先对预处理得到的数据集中所包括的特征词项进行语义剖析,通过词项类似度的核算,删去、兼并语义类似的词项。通过上述预处理,分词后26%的词汇被留下。