Processamento de linguagem natural(PLN) é uma subárea da ciência da computação, inteligência artificial e da linguística que estuda os problemas da geração e compreensão automática de línguas humanas naturais.
Nós dominamos o básico da linguagem falada e escrita, no entanto, a grande maioria de nós não avança além de algumas regras básicas de processamento quando aprendemos como lidar com texto em nossos aplicativos.
PNL(ou NPL em inglês) é a tecnologia para lidar com nosso produto abrangente: a linguagem humana, conforme aparece nas mídias sociais, e-mails, páginas da web, tweets, descrições de produtos, histórias de jornais e artigos científicos, em milhares de idiomas e variantes.
Nesse artigo vamos explorar 8 ferramentas de PNL baseadas em C++ .
O MITIE apesar de escrito em C++, possui extensões para várias outras linguagens de programação, incluindo Python, R, Java, C e MATLAB, permitem que um usuário integre rapidamente o MITIE em seus próprios aplicativos.
Dentre suas características há:
Endereço oficial: https://github.com/mit-nlp/MITIE
text2vec é amigável à memória. Algumas partes (como GloVe) são totalmente paralelizadas usando o pacote RcppParallel.
text2vec é inspirado em gensim. O software é lançado sob uma licença de código aberto.
Características incluem:
Endereço oficial: http://text2vec.org/
Moses é um sistema de tradução automática que permite treinar automaticamente modelos de tradução para qualquer idioma. Esta é a abordagem dominante no campo no momento e é empregada pelos sistemas de tradução on-line implantados por empresas como Google e Microsoft.
Tudo que você precisa é uma coleção de textos traduzidos (corpus paralelo). Depois de ter um modelo treinado, um algoritmo de busca eficiente encontra rapidamente a tradução de maior probabilidade entre o número exponencial de escolhas.
Características incluem:
Endereço oficial: https://www.statmt.org/moses/
O Tilburg Memory Based Learner, TiMBL, é uma ferramenta de código aberto para pesquisa de PNL e para muitos outros domínios onde as tarefas de classificação são aprendidas a partir de exemplos. É um componente central de vários sistemas de software de PNL como MBT(gerador de tagger baseado em memória), Frog(analisador morfo-sintático holandês), Valkuil.net (corretor ortográfico sensível ao contexto holandês) e SoothSayer (completamento de palavras holandês).
TiMBL é um produto do Grupo de Pesquisa ILK (Universidade de Tilburg, Holanda) e do Centro de Pesquisa CLiPS (Universidade de Antuérpia, Bélgica).
Características incluem:
Endereço oficial: https://languagemachines.github.io/timbl/
MeTA é um kit de ferramentas de ciências de dados escrito com C++ moderno. É um conjunto de processamento de linguagem natural, classificação, recuperação de informações, mineração de dados e outras aplicações de processamento de texto.
A ênfase da MeTA concentra-se na estreita integração de recursos de pesquisa (na verdade, recursos de acesso a texto em geral) com funções de análise de texto, permitindo-lhe fornecer suporte completo para a construção de um poderoso aplicativo de análise de texto.
Características incluem:
Endereço oficial: https://meta-toolkit.org/
CRF++ é uma implementação simples, personalizável e de código aberto de Campos Aleatórios Condicionais (CRFs) para segmentar/rotular dados sequenciais.
Características incluem:
CRF++ é escrito em Shell e C++.
Endereço oficial: https://taku910.github.io/crfpp/
BLLIP é um analisador constituinte generativo (primeiro estágio) e um reranker discriminativo de entropia máxima (segundo estágio). Ele também é conhecido como Charniak-Johnson ou Brown reranking parser.
Dependendo do texto que você gostaria de analisar, existem diferentes modelos de análise ideais. Aqui estão as recomendações atuais:
Endereço oficial: https://github.com/BLLIP/bllip-parser
Colibri Core é um software para contar e extrair padrões de dados de grandes corpus de forma rápida e eficiente, para extrair várias estatísticas sobre os padrões extraídos e para calcular as relações entre os padrões extraídos.
A noção empregada de padrão ou construção abrange as seguintes categorias:
O Colibri Core roda em sistemas operacionais modernos compatíveis com POSIX, incluindo Linux, FreeBSD e macOS.
Endereço oficial: https://proycon.github.io/colibri-core/
Para mais informações de como funciona o PNL sugiro esse link .
Então se inscreva nos nossos Cursos de C++ Moderno . Você aprender criar:
Acesse o endereço:
cpp artificialinteligence machinelearning