您的位置首页  网络资讯  热点

文本分类——新闻语料

  最近在做文本分类的一些事情,考虑到以前学的很多忘记了。这次就拿一个例子,把文本分类的整个流程梳理一下。本次的数据集用的是清华大学自然语言处理实验室推出的THUCNews。该数据集包括一下 10 个类别的文本,分别是:体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐。数据集的下载和详细信息,请参考该链接:

  接下来,针对所给的文本,按照体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐这10个类别,分类好数据和标签。这里以cnews.test.txt文本为例:

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186