统计模型:理论与实践2024 期末复习
考点
聚类的定义,方法,k-means算法步骤,方法论的分类。k-means步骤,优缺点。比如迭代3次之后的结果。评价聚类算法的好坏,角度有哪些。
em算法:概念,适用场景(可以扩展,混合高斯等),em的实现,计算,jensen不等式,如何计算。计算:高斯分布混合而成。em优缺点,其他应用。
分类:决策树,knn,贝叶斯,基本的分类的算法。分类的定义,现实世界的应用场景(垃圾邮件识别等)。训练和验证测试集的划分,要完成哪些条件。常见的分类器。贝叶斯公式的形式,计算。决策树,id3,c4.5克服了缺点(简答题)
gamma:知道gamma函数的形式,在实数域的特征,阶乘。要看一下性质(递推式),如何证明性质。gamma函数积分的形式,阶乘实现。
beta分布:最基本的表现(4个分布),看到特征、数学表达式,符号的含义是什么(简答题)。会计算题。beta分布在前四种之上构造的,看到特征characteristics,稍微了解一下表达,也有计算题。每个分布数学公式,均值方差,图形表达,应用,例题等等。
nlp:不用管工具使用。传统nlp的任务是什么。做分词,特征构建等。可用特征(词频,共线频率等)。稍微看一下分词。什么事停用词。命名实体识别。其他处理过程(词根化等)。马尔科夫链,看一下转移矩阵的概率,计算。n-gram应用。word vector如何构建,给你一个句子,写出来对应的向量。tf-idf不用太多记,如何根据它构建主题模型。词项-文档矩阵,给一个文档,算出来tf-idf,得到矩阵。了解信息熵概念,什么是最大熵。·