基于FastText的文本分类

2023/12/12 文本分类模型

基于FastText的文本分类

数据集说明

数据大小

• 训练集：20万条样本，文件大小约839M

• 测试集：5万条样本，文件大小约210M

分类类别：14类

• {科技: 0, 股票: 1, 体育: 2, 娱乐: 3, 时政: 4, 社会: 5, 教育: 6, 财经: 7, 家居: 8, 游戏: 9, 房产: 10, 时尚: 11, 彩票: 12, 星座: 13}

匿名处理 • 将文本转换为与之对应的数字

根据FastText要求准备训练集、验证集

• 一行一条样本 • 一行样本包含文本与标签

• 文本与标签使用制表符隔开

• 给标签加上"label"前缀

导入包、训练模型 • import fasttext • model = fasttext.train_supervised(input=“train.txt”)

保存模型、加载模型 • model.save_model(“model.bin”) • model.load_model(“model.bin”)

模型评估、测试推理 • model.test(input=“val.txt”) • model.predict(test_data)

执行data_process.py文件，具体步骤如下：