文本挖掘与信息检索概论(课程教学大纲)
日期:2024-06-15 06:20:08   来源:媒体公告

  文本挖掘与信息检索概论课程是智能科学与技术、计算机信息技术等专业的专业必修课。主要目标及要求是通过该课程的学习,使学生初步掌握文本挖掘的基本概念、基本原理、基本技术和基本处理方法,了解文本信息的获取、存储、传输、显示等方面的方法、技术及应用,为后续相关课程学习及将来从事数据分析工作奠定基础。

  教学重点内容包括:向量空间检索模型、概率检索模型、基于语言建模的信息检索模型、信息检索评价指标、文本分类技术、文本聚类技术、自动摘要技术、文本推荐技术、网页链接分析技术。

  教学难点包括:概率检索模型、贝叶斯分类器、基于卷积神经网络的文本分类算法、基于K-means的文本聚类算法、基于Word2Vec的文本聚类方法,TextRank算法、DeepWalk算法、PageRank算法、HITS算法。

  本课程的实验及实践性环节要求使用Python软件平台,编写程序实现相关的文本挖掘和信息检索算法及功能,并进行实验验证。课程实验与实践共14学时,分别为:

  利用多媒体课件梳理课程内容和讲授思路,合理运用启发式教学方式激发学生的思考力,采用讨论式教学方式增强教学过程的互动效果,理论教授与应用实例编程实践相结合,提高学生的分析和解决问题的能力。

  平时成绩(上课考勤、课堂表现及参与程度、课程作业)占20%,课程实验占20%,期末闭卷成绩占60%。

  教学要求:了解数据、信息和知识之间的关系;信息检索的发展;掌握信息检索的相关定义。

  教学要求:了解庞特模型、零概率问题及解决方法、语言模型检索框架、跨语言检索模型、非二值独立模型;掌握文本内积、相似度计算、词项权重、二值独立模型。

  重点、难点:重点内容包括文本相似度计算方法。难点内容为词项权重计算及二值独立模型。

  教学要求:了解漏检率和误检率;掌握查全率、查准率、查准率与查全率的关系。

  教学方法与手段:以课堂讲授为主,运用启发使教学,板书教学生计算查全率、查准率。

  内容要点:文本分类模式及过程;文本预处理方法;贝叶斯分类器、贝叶斯信念网络、K近邻算法、支持向量机、召回率、精确率、F值、卷积神经网络。

  教学要求:理解文本分类的模式及过程,掌握常用文本分类方法及性能评价指标。

  教学方法与手段:以课堂讲授为主,运用启发使教学,用Python编程实现的相关算法实例演示相关内容。

  重点、难点:重点内容为贝叶斯分类器、贝叶斯信念网络、K近邻算法、支持向量机。难点内容为基于卷积神经网络的文本分类方法。

  内容要点:常用的聚类方法及评价标准;基于K-means的文本聚类算法;基于潜在语义索引的文本聚类方法;基于Word2Vec的文本聚类方法。

  教学要求:了解常用的5种聚类方法;理解基于Word2Vec的文本聚类方法、基于潜在语义索引的文本聚类方法;掌握基于K-means的文本聚类算法。

  教学方法与手段:以课堂讲授为主,运用启发使教学,用相关算法实例进行说明展示。

  教学要求:了解生成式摘要方法步骤和抽取式摘要方法步骤;理解基于融合噪声检测的抽取式多文档自动摘要方法,基于HITS注意力神经网络的生成式摘要模型;掌握基于TextRank的抽取式文本自动摘要方法。

  教学方法与手段:以课堂讲授为主,运用启发使教学,用相关算法实例进行说明展示。

  内容要点:基于内容的推荐方法、基于协同过滤的推荐方法、混合推荐方法、基于图表示学习的推荐方法、推荐系统的评价。

  教学要求:了解基于内容的推荐方法、基于协同过滤的推荐方法、混合推荐方法、基于图表示学习的推荐方法、推荐系统的评价。

  教学方法与手段:以课堂讲授为主,运用启发使教学,用相关算法实例进行说明展示。

  内容要点:超链和页面内容的关系、特征提取和特征关系、PageRank算法、HITS算法、链接分析的应用。

  教学要求:了解超链和页面内容的关系、特征提取和特征关系、链接分析的应用,理解、PageRank算法、HITS算法。

  教学方法与手段:以课堂讲授为主,运用启发使教学,用相关算法实例进行说明展示。

  蔡晓妍,杨黎斌,程塨,姚西文,姚超,韩军伟. 文本挖掘与信息检索概论[M]. 北京:清华大学出版社,2022.

  [2] 蔡晓妍,等. 商务智能与数据挖掘(第2 版)[M]. 北京:清华大学出版社,2018.

  教学大纲,PPT课件(500+页),算法实例Python源码,习题答案(含实践题Python源码)。

  文本挖掘与信息检索是近年来人工智能领域的热点研究方向。本书共8章,包括信息检索概述、信息检索模型、信息检索的评价、文本分类技术、文本聚类技术、自动摘要技术、文本推荐技术和网页链接分析,融合了统计学、机器学习、数据库等知识,具有多学科交叉的特点。内容全面,案例丰富,适合作为人工智能、数据科学、计算机、软件工程等专业的本科生和研究生教材,也可作为企事业单位相关研究人员的参考资料。

  7.5.2基于DeepWalk异构文献网络表示学习的个性化全局引文推荐方法