Skip to content

This repo creates a CSV that can be used as a dataset for NLP experiments.

Notifications You must be signed in to change notification settings

otaviodantas/NLP-generator-dataset

Repository files navigation

Gerador de Dataset para Processamento de Linguagem Natural

Descrição

Este repositório tem o intuito de gerar um dataset simples, com um conjunto de frases extraídas do Twitter, por meio da API disponibilizada pelo próprio Twitter.

Módulos

  • main.py
    É responsável por comandar todos os outros módulos.

  • call_stream.py
    Unicamente invocado para fazer as chamadas de ativação da stream.

  • stream.py
    O módulo é ativado e tem uma função call back que retorna todo tweet que chega na pesquisa.

  • auth.py
    Unicamente para autenticar as chaves da API.

  • aux_mod.py
    São funções que auxiliam módulos maiores, retornam listas de pontuação, stopwords e strings tokenizadas.

  • twitter_data_cleaner.py
    Esse módulo remove todas as informações que não são utilizados para a analise:

    • remove_stopwords
    • remove_user
    • remove_URL
    • remove_emoji
    • remove_hashtag
    • remove_punct
  • config.env
    As chaves de acesso da API do twitter e a palavra chave a ser pesquisada, podem ser acessadas por meio desse arquivo.

    O fluxo de software se dá por essa primeira imagem: image image

Twitter API

Para poder utilizar a API vocÊ precisa das chaves que são disponibilizadas a partir do momento que você cria o projeto.

image image image

I/O

  • Input No arquivo config.env é possível editar a palavra que quer basear seu dataset em WORDKEY. As outras variáveis são chaves que são disponibilizadas pela API do Twitter, e são necessárias no processo de autenticação.

    WORDKEY= CONSUMER_KEY= CONSUMER_SECRET_KEY= ACESS_TOKEN= ACESS_SECRET_TOKEN=

  • Output O arquivo cria um arquivo CSV e popula o arquivo com os tweets que vão chegando, até que sofra uma interrupção do teclado (Ctrl+C).

    1 | tweet exemplo 1

    2 | tweet exemplo 2

pip install

Para que baixar todas as bibliotecas utilizadas basta copiar a linha abaixo:
pip install tweepy nltk unidecode python-dotenv

Contribua com o repositório :)

Qualquer tipo de contribuição é bem vinda, desde dicas até pull requests.

git clone https://github.com/otaviodantas/NLP-generator-dataset.git

About

This repo creates a CSV that can be used as a dataset for NLP experiments.

Resources

Stars

Watchers

Forks

Packages

No packages published