Recentemente, o professor Qin Shuo participou na CES, uma feira realizada em Las Vegas.
Durante toda a viagem aos Estados Unidos, ele manteve uma “arma secreta” colada à parte traseira do seu telemóvel: a gravação de voz DingTalk A1. Quer fosse para captar ideias durante um jantar, registar pontos-chave numa entrevista com altos executivos ou acompanhar informações num evento de lançamento, este pequeno dispositivo esteve sempre ao seu lado, desde manhã até à noite, acompanhando-o em situações simples e complexas, praticamente em todo o lado.
A seguir, partilha a sua experiência pessoal com este dispositivo.
O meu passado embaraçoso com equipamentos de gravação
Desde que entrei na indústria dos media em 1990, os equipamentos de gravação tornaram-se companheiros indispensáveis no meu trabalho. No início, usava gravadores de fita magnética enormes, do tamanho de tijolos, com fitas TDK; mais tarde, passei a usar gravadores de voz miniatura, mais pequenos do que um telemóvel, que gravavam em mini-fitas. Depois de cada gravação, tinha de a reproduzir repetidamente, transcrevendo-a frase a frase para a organizar.
A minha carreira profissional está intimamente ligada a vários tipos de ferramentas de gravação.
Embora seja relativamente experiente na edição de conteúdos, sou frequentemente desajeitado quando se trata de operar equipamentos técnicos. Mesmo com gravadores de som simples, que têm apenas botões para gravar, parar, avançar rapidamente, retroceder e reproduzir, continuo a cometer erros constantemente.
O episódio mais marcante ocorreu em 1993, quando representei a revista Nanfengchuang numa entrevista conjunta com o então presidente da Câmara de Guangzhou, Li Ziliu. O repórter da Xinhua fazia as perguntas principais, enquanto eu era responsável pela gravação e pelas notas. Sem saber qual o botão que tinha acionado por engano, reparei mais tarde que a fita magnética tinha saltado para fora. Felizmente, o presidente da câmara não notou nada de anormal; rapidamente enfiei o aparelho no bolso e pressionei o botão de paragem.
Só mais tarde, ao ouvir a gravação, percebi que grande parte do conteúdo não tinha sido gravada. Acabei por pedir ajuda a um repórter de televisão presente no local, fingindo que precisava de verificar a versão, para conseguir completar os dados. Esta experiência deixou-me perturbado durante muito tempo.
Desde então, quer se trate de gravadores de voz, notebooks inteligentes ou aplicações para telemóveis, sinto necessidade de verificar frequentemente se a gravação está realmente a decorrer. Em entrevistas importantes, chego mesmo a ativar dois telemóveis em simultâneo como cópia de segurança, só para me sentir um pouco mais tranquilo.
Foi só um dia, ao folhear o livro universitário da minha filha e ler “The Design of Everyday Things”, de Donald Norman, que finalmente compreendi. O livro afirma que, quando um produto é difícil de usar, as pessoas tendem a culpar-se a si mesmas, mas o verdadeiro problema reside no próprio design. “Os erros do utilizador não devem ser atribuídos às pessoas, mas sim à reflexão sobre o design do produto e da interface.”
Afinal, não era falta de cuidado da minha parte!
Embora me sentisse mais tranquilo, ainda era difícil encontrar, na prática, ferramentas de gravação verdadeiramente centradas no utilizador, intuitivas e fáceis de usar. Especialmente hoje em dia, muitas entrevistas envolvem inglês e, na era dos media independentes, exige-se uma produção rápida, o que mantém a pressão.
A primeira experiência com um add-on de IA: a chegada da gravação de voz DingTalk A1
Foi só recentemente, ao participar na CES (Consumer Electronics Show), que usei pela primeira vez a gravação de voz AI da DingTalk (DingTalk A1) e consegui finalmente deixar para trás a ansiedade relacionada com gravações. Este dispositivo leve adere à parte traseira do telemóvel e suporta transcrição inteligente, resumo de conteúdos, tradução instantânea em 8 línguas e tradução simultânea em mais de 20 línguas. Mesmo em ambientes barulhentos como mercados, consegue ouvir com clareza, gravar de forma completa, traduzir com precisão e resumir de forma eficaz, sendo praticamente o meu primeiro “add-on de IA”.
Do pesado gravador de fita magnética da era analógica ao atual gravador de voz AI, que pesa apenas 40 gramas; da transcrição manual à transcrição automática, extração de pontos-chave e geração de atas de reunião, esta evolução reflete claramente a minha própria trajetória pessoal, que passou da informatização e digitalização para a inteligência.
Permitir que a IA tenha o seu próprio “corpo”
Às 11h49 do dia 4 de janeiro, embarquei no voo UA2229 de Los Angeles para Las Vegas. Na sala de espera, abri a embalagem da gravação de voz AI da DingTalk e encontrei o dispositivo principal, a capa protetora e o anel magnético. Basta colar o anel magnético na parte traseira do telemóvel e depois fixar o dispositivo principal no anel para completar a instalação. O dispositivo em si tem apenas um botão de gravação e um botão de comando de voz; todas as outras operações são realizadas através da aplicação DingTalk. O download da aplicação e a ativação do dispositivo foram concluídos sem qualquer instrução, de forma perfeitamente fluida.
Quando coloquei este pequeno dispositivo, do tamanho de um cartão de visita, no telemóvel, um casal estrangeiro sentado ao meu lado perguntou com curiosidade. Respondi: “Este é um novo tipo de dispositivo que nunca vi antes; pode gravar, traduzir e converter em texto.” Eles exclamaram: “It’s so cool.”
O tema central desta edição da CES é a IA, e a tendência principal é a passagem da “IA informacional” para a “IA física” – a inteligência artificial está a integrar-se profundamente com o hardware, conferindo uma alma inteligente aos dispositivos físicos. Por exemplo, os óculos com IA funcionam como “legendas em tempo real” para o mundo real, enquanto a gravação de voz AI integra as capacidades de um modelo de linguagem em grande escala num cartão.
Esta direção é conhecida como “Tudo é IA” ou “IA no edge” (Edge AI), e alguns também a chamam de “tudo é computável”. Resumo-a como “AI nos terminais, terminais com IA”. À medida que as capacidades dos modelos de grande escala aumentam, a IA está a remodelar todos os tipos de hardware físico.
A gravação de voz AI da DingTalk, embora pareça um cartão, contém internamente um chip de áudio AI de 6 nm, equipado com 5 microfones omnidirecionais e 1 microfone de condução óssea, suportando reconhecimento de voz e localização espacial, permitindo uma gravação visualizada. Todos os dados de gravação são criptografados tanto no dispositivo quanto na nuvem, garantindo privacidade e segurança, e suportando a chamada inteligente por IA.
Como o utilizei no local da CES?
Na manhã de 5 de janeiro, o meu programa na CES começou oficialmente. Participei num evento de pré-lançamento de novos produtos da Lenovo no hotel Venetian, onde vários especialistas apresentaram dispositivos de computação inteligente pessoal em inglês. Sentei-me na primeira fila do lado direito da plateia, com o palco situado a cerca de cinco ou seis metros à esquerda. Ativei a gravação de voz da DingTalk e liguei a função de “tradução em tempo real”, ouvindo enquanto verificava o texto original em inglês e a transcrição em tempo real para chinês. Ao fim de meia hora de apresentação, a IA já tinha gerado automaticamente os pontos-chave da reunião e dividido o conteúdo em secções; o conteúdo podia ser utilizado diretamente na DingTalk ou exportado para partilha.
A primeira experiência foi excelente: as funções correspondem às necessidades, a operação é intuitiva e a precisão de reconhecimento é elevada. Embora ocasionalmente haja desvios na tradução de termos técnicos, se permitirmos que o sistema aprenda com o corpus pessoal, o desempenho continuará a melhorar. A precisão do reconhecimento de voz tradicional ronda os 70%, a de um modelo geral de grande escala atinge 80%, enquanto a da DingTalk, baseada na tecnologia do laboratório Tongyi da Alibaba e treinada com 100 milhões de horas de áudio e vídeo, alcança 90%, podendo subir para 97% após otimizações específicas.
No meio-dia do mesmo dia, participei num almoço com executivos de uma empresa de relações públicas de Nova Iorque num restaurante ao ar livre. O ambiente era barulhento, com cinco pessoas a falarem alternadamente, mas a gravação de voz continuou a oferecer uma qualidade de som elevada. Com a função de “tradução em tempo real”, a eficiência da comunicação melhorou significativamente.
Português
English