Dados de alta qualidade são a base para o treino e aplicação de grandes modelos de IA, sendo também o “combustível” para a transformação e atualização das empresas rumo à IA. No entanto, muitas empresas enfrentam dificuldades ao desenvolver aplicações de IA, pois os grandes modelos têm dificuldade em compreender dados não estruturados.
Será possível permitir que mais utilizadores empresariais tenham ferramentas de dados adequadas, alcançando a liberdade de dados AI-Ready?
Recentemente, OpenDataLab e DingTalk lançaram conjuntamente, com base no MinerU, a ferramenta de análise de documentos DLU (Document Language Understanding) destinada a utilizadores empresariais. O objetivo é ajudar as empresas a resolver os desafios dos dados AI-Ready, reduzir o limiar de desenvolvimento de aplicações de IA e acelerar a implementação em larga escala da tecnologia de IA em diversos setores.
MinerU é um motor inteligente de análise de documentos lançado pelo OpenDataLab do Shanghai Artificial Intelligence Laboratory (Shanghai AI Lab). Com a sua capacidade de análise precisa e ampla compatibilidade, tem sido muito popular entre os utilizadores, tendo já ultrapassado 40 mil estrelas no GitHub.
Como instituição de investigação em inteligência artificial de nível internacional, o Shanghai AI Lab possui uma profunda experiência técnica nas áreas de grandes modelos e inteligência de dados. A plataforma OpenDataLab, desenvolvida internamente, é uma das principais plataformas de dados para grandes modelos de IA na China, reunindo mais de 7700 conjuntos de dados abertos e rotulados, tendo já fornecido mais de 2 milhões de serviços de dados a mais de 100 mil utilizadores. A versão mais recente do MinerU 2.0 apresenta melhorias significativas na velocidade e precisão de análise, alcançando um desempenho comparável ao de modelos grandes de 72B com apenas 0,98B de parâmetros.
DingTalk, a plataforma empresarial de escritório móvel inteligente do Grupo Alibaba, possui uma vasta gama de produtos de documentos empresariais e uma base massiva de utilizadores. Produtos como DingTalk Docs e AI Tables já integram profundamente as capacidades do MinerU e, através da plataforma aberta, oferecem funções de análise de documentos aos desenvolvedores da ecologia, estabelecendo uma sólida base técnica e de cenários para o desenvolvimento conjunto do DLU.
O DLU, construído com base no MinerU, será brevemente disponibilizado em código aberto, apresentando excelente compatibilidade com formatos de ficheiros, poderosa capacidade de compreensão de conteúdos profundos e saída estruturada precisa. Não só suporta os principais documentos Office, PDF, Markdown e ficheiros de código, como também abrange os formatos próprios de documentos, tabelas e AI Tables do DingTalk; ao mesmo tempo, pode extrair conteúdos de texto puro, analisar com precisão elementos visuais complexos como gráficos, fórmulas, ilustrações e até fórmulas moleculares químicas, convertendo-os de forma eficiente em corpus de alta qualidade adequado para o treino de grandes modelos.
O DLU integrará profundamente a ecologia de colaboração de escritório do DingTalk, realizando um ciclo fechado em todo o processo das aplicações de IA
No futuro, o DLU aproveitará as vantagens do DingTalk nos cenários de serviços empresariais, integrando-se profundamente na ecologia de colaboração de escritório, permitindo aos utilizadores completar, na mesma plataforma, todo o processo desde a criação de documentos, extração por análise, gestão de bases de conhecimento, rotulagem de dados até o treino personalizado de modelos, elevando de forma abrangente a eficiência do desenvolvimento de aplicações de IA e do trabalho diário de escritório.
He Conghui, jovem cientista do Shanghai Artificial Intelligence Laboratory e fundador dos projetos de código aberto OpenDataLab/MinerU, afirmou: “O MinerU possui uma ampla base de utilizadores. Esperamos expandir ainda mais a sua aplicação em cenários empresariais, explorando plenamente o valor da plataforma OpenDataLab e, em parceria com os nossos parceiros, criar um ‘PyTorch das ferramentas de dados’, ajudando mais empresas a alcançar a liberdade de dados AI-Ready.”
Zhu Hong, CTO do DingTalk, declarou: “Através do lançamento em código aberto do DLU, podemos resolver eficazmente os problemas de preparação de dados das empresas na era da IA, consolidando as bases da transformação inteligente. O DingTalk está a construir ativamente uma nova ecologia de IA, esperando trabalhar em conjunto com mais parceiros tecnológicos e forças do setor para fornecer um forte suporte à atualização digital e inteligente de milhares de indústrias.”
A DomTech é o fornecedor oficial e designado do DingTalk em Macau, especializado em fornecer serviços do DingTalk aos clientes. Se desejar saber mais sobre as aplicações da plataforma DingTalk, pode contactar diretamente o nosso serviço de apoio ao cliente online ou através do telefone +852 95970612 ou do e-mail cs@dingtalk-macau.com. Temos uma excelente equipa de desenvolvimento e operação e manutenção, com vasta experiência em serviços de mercado, podendo oferecer-lhe soluções e serviços profissionais do DingTalk!
Português
English