高質量數據是 AI 大模型訓練與應用的基礎,更是企業向 AI 轉型升級的「燃料」。然而,許多企業在開發 AI 應用時,因大模型難以理解非結構化數據而陷入困境。
能否讓更多企業級用戶擁有趁手的數據工具,實現 AI-Ready 數據自由?
近日,OpenDataLab 與釘釘基於 MinerU 共同推出面向企業用戶的文檔解析工具 DLU(Document Language Understanding),旨在幫助企業破解 AI-Ready 數據難題,降低 AI 應用開發門檻,加速 AI 技術在各行業的規模化落地。
MinerU 是由上海人工智能實驗室(上海 AI 實驗室)OpenDataLab 推出的智能文檔解析引擎,憑藉精準的解析能力和廣泛的兼容性深受用戶歡迎,GitHub 星標數已超過 4 萬。
作為國際級人工智能科研機構,上海 AI 實驗室在大模型和數據智能領域具備深厚技術積累。其自主打造的 OpenDataLab 平台是國內領先的人工智能大模型數據平台,集結超過 7700 個開源精標數據集,已為超過 10 萬用戶提供逾 200 萬次數據服務。最新發布的 MinerU 2.0 在解析速度與精度上均有顯著提升,僅以 0.98B 參數量即達到媲美 72B 主流大模型的性能。
釘釘作為阿里巴巴集團旗下的企業級智能移動辦公平台,擁有豐富的企业文檔產品和龐大的用戶基礎。釘釘文檔、AI 表格等產品已深度集成 MinerU 能力,並通過開放平台向生態開發者提供文檔解析功能,為 DLU 的聯合研發奠定了堅實的技術與場景基礎。
基於 MinerU 打造的 DLU 即將開源,具備出色的文件格式兼容性、深層內容理解能力以及精準的結構化輸出。它不僅支持主流的 Office 文檔、PDF、Markdown 和代碼文件,還涵蓋釘釘自有的文檔、表格及 AI 表格格式;同時可提取純文本內容,精準解析圖表、公式、插圖乃至化學分子式等複雜視覺元素,並将其高效轉化為適合大模型訓練的高質量語料。
DLU 將深度融合釘釘辦公協同生態,實現 AI 應用全流程閉環
未來,DLU 將依托釘釘在企業服務場景的優勢,深度融入辦公協同生態,支持用戶在同一平台完成從文檔創建、解析提取、知識庫管理、數據標註到定制化模型訓練的完整流程,全面提升 AI 應用開發與日常辦公效率。
上海人工智能實驗室青年科學家、OpenDataLab/MinerU 開源項目創始人何聰輝表示:「MinerU 擁有廣泛用戶基礎,我們希望進一步拓展其在企業場景的應用,充分發揮 OpenDataLab 平台價值,攜手合作夥伴打造『數據工具中的 PyTorch』,助力更多企業實現 AI-Ready 數據自由。」
釘釘 CTO 朱鴻表示:「通過開源 DLU,能有效解決企業在 AI 時代的數據準備難題,筑牢智能化轉型根基。釘釘正積極構建 AI 新生態,期待與更多技術夥伴和行業力量携手,為千行百業的數字化與智能化升級提供強勁支撐。」
多姆科技(DomTech)是釘釘在澳门的官方指定服務商,專門為廣大客戶提供釘釘服務。如果您還想瞭解更多釘釘平臺應用的內容,可以直接諮詢我們的在線客服,或者通过电话+852 95970612或邮箱cs@dingtalk-macau.com联系我们。我們有優秀的開發和運維團隊,豐富的市場服務經驗,可以為您提供專業的釘釘解決方案和服務!
Português
English