2024年中国国际服务贸易交易会于9月12日至16日在北京启幕。作为全球服务贸易领域的高规格会议,本届服贸会由国务院批准,商务部与北京市人民政府共同主办。会议期间共举办了13场主题论坛,成为中国扩大开放、深化合作、引领创新的重要平台。
深思考杨志明博士在论坛上分享了深思考在多模态大模型云侧和端侧产品规模化落地的经验。
在云侧,Dongni.ai多模态大模型可应用于AI搜索引擎、重疾早筛等场景。深思考AI搜索引擎能够理解和处理多种类型的数据输入,包括但不限于文本、图像、音频和视频。该搜索引擎通过整合和分析来自不同模态的信息,提供更加丰富和准确的搜索结果。另,以重疾早筛场景为例,深思考深耕癌症早筛场景多年,其“巧思”年筛查量近3千万人次,是市场上服务量最大的产品,且早在2019年央视一套《机智过人》栏目中就对该产品进行过专题报道。
在端侧,Dongni.ai多模态大模型可赋能AI PC、AI手机、AI NPU 摄像头和AI显微镜等场景。目前,深思考端侧产品可解决智能终端的两点刚需问题,既保护用户隐私和防止信息泄露。例如,手机中的照片和视频不适合上传云端,再例如,许多医疗机构不愿意将医疗样本数据上传云端。且深思考端侧产品适配NPU,也非常适合安防和汽车场景。不久前深思考与奥林巴斯合作推广的“慧眼”AI显微镜也在市场上获得了极大的欢迎和好评。
多模态大模型(LMMs)
多模态大模型(LMMs)是一类能够处理和理解多种不同类型的数据输入的人工智能模型,如文本、图像、音频和视频。这些模型通过大规模的数据训练,学习如何联合理解和生成跨多种模式的信息,被视为朝向通用人工智能的下一个步骤。与大型语言模型(LLMs)相比,LMMs的关键能力在于整合并理解不同的数据格式,而LLMs则专注于处理和生成文本数据。
多模态大模型的应用场景广泛,包括但不限于自动驾驶、医疗诊断、视频理解和处理等。例如,在自动驾驶领域,多模态大模型可以融合图像、语音、雷达等多种数据类型,实现对车辆周围环境的全面感知和精准判断。在医疗诊断领域,模型可以整合图像、文本和声音等多种数据类型,为医生提供更全面、准确的诊断依据。
目前,多模态大模型的研究和应用正在快速发展,涉及到的模型包括国外的GPT-4Vision、Gemini,国内的文心一言、讯飞星火、智谱清言等。这些模型在不同的任务场景下各有优劣,对它们的评测和优化是一个重要研究方向。评测体系如“弈衡”多模态大模型评测体系,旨在为多模态大模型的评测场景、评测指标、评测方式等提供参考基准。
随着技术的不断进步,多模态大模型将在更多领域发挥重要作用,为解决现实世界中的复杂问题提供支持。同时,数据合成技术的发展也为多模态大模型的训练提供了新的解决方案,如“天池 Better Synth-多模态大模型数据合成挑战赛”就是探索数据合成新方法的一次尝试。
在多模态大模型的分类上,主要有并行模型、交叉模型和联合模型三种类型。并行模型将不同模态的数据分别输入到各自的模型中处理后融合;交叉模型增加了模态间的交互,能够捕捉不同模态数据之间的相关性;联合模型则将所有模态的数据一起输入到一个模型中处理,能够全面地理解和处理多模态数据。
未来,多模态大模型的发展将聚焦于模型的融合策略、计算效率和解释性,以提高模型的预测性能和泛化能力。随着模型规模的增大,如何提高模型的计算效率将成为一个重要的研究方向。同时,提高模型的解释性,使得模型的预测结果能够被人类理解,也是一个重要的发展方向。