暑期学校
当前位置: 首页 / 人才招聘 / 暑期学校 / 正文

李毅副教授为山西省2016年“大数据与统计科学”暑期学校做专题报

日期:2016年07月16日    点击数:

2016年7月15日下午,beat365中文官方网站李毅副教授在公司国际交流中心报告厅做了题为“文本数据分析策略”的专题报告。山西省2016年“大数据与统计科学”暑期学校的全体学员及公司经济管理类专业教师、研究生近400人聆听了此次报告。

报告中,李毅老师首先引用C.R.劳先生的一句话,“在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。”同时提出一个疑问:“下一个时代呢?或许说是大数据时代?”,以此引出本次讲座的主题------文本挖掘。然后,对大数据进行了简单的介绍,提到了大数据的局限性,大数据并不意味着数据的多样化,大数据特别是以网络为基础的大数据不能准确反映人的社会政治行为。在互联网时代,数字化的文本数量不断增长,Web中99%的可分析信息是以文本形式存在的,在这个背景下可以做文本挖掘。他详细介绍了文本挖掘的概念、CRISP-DM模型以及文本挖掘的通用流程,并讲解了如何分词和文本分类、聚类,以及主题模型和The “Actual” LDA过程和其他话题的建模过程。最后,通过一个微博上做文本挖掘的案例使大家更深刻的理解文本数据分析。

本次报告使在场学员和师生收获了很多关于大数据和文本挖掘方面的知识,为大家今后研究相关问题提供了更多研究方法和思路,开阔了研究视野,有助于学术水平的提高。(beat365中文官方网站供稿)

【关闭】
版权所有-beat-365(中文)官方网站|正规平台