学校AI赋能科研能力提升系列培训讲座第六期——孙文龙博士解读“利用通用大语言模型处理非结构化数据的几种方法”

文章来源：科研处作者：发布时间：2024-12-05 浏览次数：20

2024年12月3日，由科研处举办的“AI赋能科研能力提升系列培训讲座”迎来了第六期活动。纽约国际588888线路检测中心会计学院的孙文龙副教授以“利用通用大语言模型处理非结构化数据的几种方法”为主题，为大家带来了一场深具启发性的专题讲座。此次讲座由科研处处长闫海洲主持，学校80余名教师参与。

孙文龙副教授在开场时，首先展示了文本分析在研究设计中的关键作用，特别是在变量构建中的应用。通过分析传统文本处理案例，他总结出文本分析的核心在于提出有价值的问题，而分析工具则是帮助回答这些问题的手段。他指出，合理运用自然语言处理（NLP）方法，结合会计和计量经济学等领域的研究工具，能够帮助研究者更有效地探索并解决会计领域的重要问题。

接着，孙文龙副教授通过分析传统通过具体案例，详细介绍了“Promote”的流程：首先进行数据清理，形成DataFrame；然后选择合适的通用大语言模型（LLM）；借助ChatGPT生成相应的“Promote”；之后进行修改与优化，提升调用效率。

在讲座的最后，孙文龙副教授还介绍了传统深度学习模型与LLM微调的流程，以及对Embedding和多模态应用的探讨。深入分析了大语言模型的局限性，并提出了改进措施，强调了模型训练的重要性，同时鼓励跨学科的合作，以更好地理解和应用大语言模型技术。

本次讲座激发了教师们对提升AI技术应用素养的重视，帮助他们在科研选题和论文撰写中更好地利用AI技术。教师们通过大语言模型在科研中的应用，能够更加有效地满足个性化需求，进一步提高科研质量。