중한연구학회
학술지(中韩研究学刊)

 

第19辑(總第36辑)8. “中文+”背景下基于机器学习的文本分类研究

작성일 : 25.05.08 12:05 | 조회 : 10
  1. 글쓴이 : 중한연구학…
  2.  08_肖锐_庞浩然_侯尚余.pdf (498.8K) [0] DATE : 2025-05-08 12:05:28
  3. “中文+”背景下基于机器学习的文本分类研究— 以能源动力与材料专业文本为例

    中资能源企业海外雇员面临语言障碍,构建中文专业词汇库可为企业雇员缓解语言压力,文本分类技术是构建词汇库的前置基础。本研究选取职业教育分类下的能源动力与材料领域65万字的专业文本,以TF-IDF算法和BOW词袋模型提取文本特征,对比支持向量机(SVM)、决策树(DT)、朴素贝叶斯(NB)和K-近邻(KNN)这四种算法在能源动力与材料专业文本中分类的准确率(Precision)、召回率(Recall)、F1指数,对比显示,采用BOW+SVM模型框架对黑色金属材料类别文本进行分类后,得出97.6%的准确率、98.4%的召回率和98%的F1指数,均优于其他类别。结果表明BOW+SVM模型文本分类框架有助于能源动力与材料专业词汇库构建,结合中文教学打破能源企业海外雇员英语与汉语间的语言壁垒,促进“中文+”发展。

    关键词:机器学习,自动文本分类,计算语言学,“中文+”,能源动力与材料

 
 


주소 : 서울 종로구 대학로 86(동수동) | 한국 방송통신대학교 331호
TEL : 02-3668-4571 | FAX : 02-3673-0612