【独家】产业大模型语料库建设的思考——以港航大模型为例

发布者：彭宜蔷发布时间：2024-04-28浏览次数：116

作者：上海海事大学上海国际航运研究中心徐凯，上海海勃物流软件有限公司李燕，上海海事大学港航大数据实验室郭胜童

在当今人工智能技术迅猛发展的时代，产业大模型的应用已经渗透到各个领域，其中语料库作为模型学习和理解世界的基石，其重要性不言而喻。本文以港航大模型为例，深入探讨了语料库在产业大模型应用中的关键作用，强调了专业语料库建设的重要性，提出了语料库体系化建设的思路。通过对语料库规模、质量和内容分布的综合考量，提出了一种新的评价标准——综合语料价值指数（CCVI），旨在为垂直领域大模型语料库的建设提供科学、全面的指导。本文旨在引起业界对语料库建设的重视，推动产业大模型在垂直领域的深入应用。

一、为什么说语料库是产业大模型应用的基础

对于任何人工智能模型，尤其是语言模型，训练数据是模型学习和理解世界的基石。语料库提供了这些模型所需的原始文本数据，这些数据包含了丰富的语言信息，如词汇、语法、句法和语义等。没有这些数据，模型就无法进行有效的训练和学习。虽然，当前通识大模型如Chat GPT、文心一言、通意千问、智谱清言等已经展现了强大的语言理解和生成能力。然而，对于特定的产业应用，需要更深入的专业知识和细粒度的理解。这意味着，为了使模型在特定行业中发挥最大效用，必须有针对性地构建专业语料库和训练专业领域的模型。

首先，专业语料库是模型性能的决定因素。模型的质量在很大程度上取决于训练数据的质量。一个全面、多样、无偏见且高质量的语料库能够训练出性能更好、泛化能力更强的模型。相反，如果语料库存在缺陷，如数据量不足、质量低、偏见或片面性，那么训练出的模型可能无法准确反映现实世界的语言使用情况，其性能和应用效果也会受到影响。因此，专业语料库需要具备高质量、专业性和正确性，以确保模型能够提供准确、有效的专业咨询服务。

其次，产业应用需要学习特定垂直领域的专业知识。在产业应用中，通用的语言模型往往需要被特定领域的知识所增强。这意味着，为了使模型能够理解和处理特定行业的问题，需要有针对性地构建包含该领域专业知识的语料库。这样的语料库能够提供行业特定的语言使用习惯、术语和概念，从而使模型能够更准确地服务于该行业。不同的行业有不同的规范和需求。例如，航运、金融、医疗和法律等行业对准确性和合规性的要求极高。为了满足这些要求，需要有专业化的语料库来训练模型，以确保模型的应用能够符合行业标准和法规要求。

再次，产业大模型需要持续学习和同步更新。语言是不断发展变化的，新的词汇、表达方式和知识不断出现。语料库的持续更新和扩充是模型持续学习和适应新趋势的必要条件。对于产业大模型来说，能够及时获取和整合最新的行业信息是保持其竞争力的关键。通过增强学习（Reinforcement Learning）等技术，专业模型可以在通识大模型的基础上进行叠加和优化，从而在保持广泛知识面的同时，深入挖掘专业领域的特定需求和应用场景。

最后，产业大模型和语料库需要私有化部署和安全防护。由于专业知识的敏感性和专有性，垂直行业通常更倾向于在私有云计算环境中部署其模型，以更好地保护企业的数据和知识资产。在实际应用中，许多行业对数据的隐私和安全性有严格的要求，因此，私有云部署成为了一种常见的解决方案。在这种情况下，构建和维护一个符合行业隐私和安全标准的内部语料库就变得尤为重要。通过私有化部署和注重安全，产业大模型能够确保敏感信息的安全，同时满足行业对数据保护的高标准。

综上所述，语料库不仅是产业大模型学习和训练的基础，也是模型性能、专业性和适应性的关键决定因素。因此，语料库的建设和管理对于产业大模型的成功应用至关重要。

二、港口航运领域的大模型应用进展

在港口航运领域，大模型应用的发展在最近一年突飞猛进，现状表现在以下几个方面：

第一、天津港的PortGPT研发。2023年10月，天津港集团联合多家企业启动了PortGPT的研发，覆盖了港口生产、物流服务等多个应用场景。天津港还创造了数字人助手“天天”，它在数据分析挖掘能力上已超越普通员工，能够提供实时的问题解决方案。

第二、山东日照港与百度的合作。2024年3月，山东日照港与百度合作开发大模型，专注于件杂货码头的自动化和智能化。通过智能化系统，日照港的运转效率、设备利用率、堆场周转率和利用率均有显著提升。

第三、广州港南沙三期的大模型应用。南沙三期开展了基于大模型的港口GPT一站式服务平台的研究与应用，实现了服务全流程的智能化，并通过大模型技术提升了智能服务水平。

第四、港联航科技研发PortGLM港口大模型系统。港联航科技自主研发了港口大模型系统——PortGLM，建立了港口码头领域的垂直语料库，包括港口码头相关法律法规、基础知识与生产操作知识、事故案例分析、风险评估模型等。该系统能与港联航的“神谋”超级自动化iPaaS平台结合配置港口数字员工，提高港口运营智能化水平。

第五、壹沓科技的运小沓平台。壹沓科技推出了“运小沓”供应链数字员工超自动化平台，实现供应链业务的全局超自动化，包括营销、履约执行和财务结算等方面。同时，壹沓科技还推出了“运小沓·CubeAgent”，提供虚拟数字员工专家团队，助力企业提高人才密度和实现生产力变革。

第六、西井科技的TerminalGPT发布。2023年6月，西井科技发布了集装箱物流供应链大模型TerminalGPT，它能够通过自主学习优化港口运营，提高作业效率和安全性。

第七、新加坡的大语言模型生态。新加坡投资7000万元开发了东南亚首个大型语言模型生态系统，以满足多元文化和多语需求，并助力新加坡成为人工智能解决方案的全球领导者。

第八、未斯科技的56GPT产品。未斯科技于2023年6月推出了56GPT人工智能产品，专为货代公司设计，通过自然语言处理和深度学习模型提供一站式服务，提高了工作效率和员工满意度。

第九、招商局的ShippingGPT研发。2023年11月，招商轮船开发了基于“商道”行业大模型的ShippingGPT，用于船舶管理、市场分析等多个领域，并通过“世界航商”APP向全球用户开放。

这些应用展示了大模型在港口航运领域的多样化用途，包括提高作业效率、优化资源分配、增强决策支持和提升客户服务水平等。随着技术的进步，大模型在港口航运领域的应用将更加广泛和深入。

三、港口航运垂直语料库需要体系化建设

港口航运垂直语料库的体系化建设对于航运领域的发展至关重要，应重视港口航运垂直语料库的建设和维护，以期为港口航运业的发展提供有力支持。

首先，港口航运垂直语料库的建设需要全面考虑各类数据。这不仅包括传统的结构化数据，如统计数据和业务数据，还应涵盖非结构化数据和多模态数据。这些数据类型在航运领域的应用日益广泛，对于理解和分析港口运营状况、预测市场趋势以及优化物流流程至关重要。上海国际航运研究中心正在受上港集团、山东港口科技集团、南京港口集团、广州港口集团等单位的委托起草《港口大数据分类与编码》团体，已经将语料数据考虑在大数据体系之中。

其次，港口航运垂直语料库的构建需要一个科学的目录体系。我们已对港口领域的语料进行了细致的梳理，形成了12个一级分类和72个二级分类。例如，一级分类包含港口概述、港口管理与运营、港口设施与设备等，每个一级分类下又细分为货物装卸设备、装卸工艺类型与特点、港口物流链优化等不同的二级分类。这种分类体系有助于清晰地展示港口航运领域的知识结构和信息内容。

再次，港口航运垂直语料库的需要专业词向量和知识图谱的构建。通过对专业词汇的词向量进行梳理，我们可以更好地理解词汇之间的关系和含义，进而构建出知识图谱。同时，还需梳理词向量中与其他数据对接的关联概念，如统计数据中的货类细分等，以实现数据之间的有效衔接和利用。

四、专业语料要重“量”更要重“质”

专业领域的语料库建设，往往更看重语料的专业性和质量，而不是一味的追求语料的数量。这主要是因为以下三方面原因：

首先，语料库的规模是衡量其价值的基础。一个庞大的语料库能够为大模型提供丰富的训练数据，从而提高模型的性能和泛化能力。然而，规模并非唯一重要的因素。如果仅仅追求数量而忽视质量，那么语料库中可能充斥着大量低质量的、重复的或者无关紧要的数据，这不仅无法提升模型的效能，反而可能引入噪声，降低模型的准确性和可靠性。

其次，语料质量是决定模型效能的关键。高质量的语料能够提供准确、一致的信息，有助于模型学习到更加真实和有效的知识。而低质量的语料则可能导致模型学习到错误的信息或者产生误导性的输出。因此，在语料库建设中，必须对语料进行严格的质量控制，确保其准确性和可靠性。

最后，内容分布的均衡性也是评价语料库的重要指标。一个均衡的内容分布能够保证模型在各种情境下都能够做出合理的预测和决策，而内容分布的不均衡则可能导致模型在某些方面的过度拟合或者在另一些方面表现欠佳。因此，在语料库建设中，需要注重内容的多样性和均衡性，以确保模型在各种场景下的适用性。

如果不进行科学评价，很可能会有人利用GPT等工具批量生成大量内容重复而只有形式差异的语料。这些语料虽然数量庞大，但实质性的内容增量却非常有限，无法为大模型带来真正的价值。因此，本文提出一个“综合语料价值指数”（Comprehensive Corpus Value Index，简称CCVI），该指数综合考虑了语料的质量、所属分类的权值以及数量，可以更客观地反映垂直领域大模型语料的资源价值。CCVI评价的引入，不仅能够帮助我们更加科学地评价和选择语料库，还能够引导我们在语料库建设中注重质量、多样性和均衡性，从而为大模型提供更加优质、有效的训练数据。

定义：综合语料价值指数（CCVI）是一个用于衡量垂直领域大模型语料资源的综合指标，它结合了语料质量、分类权值和数量三个维度，以提供一个更全面的评估。

计算公式： CCVI=语料质量×语料分类权值×语料数量

其中：

语料质量（Q）：根据语料的准确性、完整性、一致性等指标，给予0-5颗星的评分，转换为数值形式，如5星可表示为5。
语料分类权值（W）：根据语料所属的一级分类，分配权重值，权重总和为100，每个分类的权重值表示该分类在整个语料库中的相对重要性。
语料数量（N）：以短句为单位计算，每个句号、问号、逗号、分号、冒号、感叹号分隔开的都是一个短句。

例如，如果一个语料库的语料质量评分为4星（即4），所属分类的权值为20，语料数量为1000短句，那么其综合语料价值指数（CCVI）为CCVI=4×20×1000=80000。

这个指数可以用于不同语料库之间的比较，以评估它们在特定领域的价值。

五、结束语

在未来的发展中，我们需要更加注重语料库的质量和多样性，以满足不同行业对于专业知识和细粒度理解的需求。同时，我们也应关注语料库的持续更新和扩充，以适应语言和知识的不断发展变化。只有这样，我们才能构建出更加精准、高效的人工智能模型，为各个行业的发展提供有力支持。让我们以港航大模型为鉴，共同推动人工智能技术在垂直领域的深度应用，为人类社会的发展贡献力量。

导航

【独家】产业大模型语料库建设的思考——以港航大模型为例