Categorias
Algoritmo Ciência de Dados Dados Machine Learning

Principais algoritmos de Machine Learning para você conhecer em 2022

Algoritmos de aprendizado de máquina utilizam parâmetros baseados em dados de treinamento – um subconjunto de dados que representa o conjunto maior. À medida que os dados de treinamento se expandem para representar o mundo de modo mais realista, o algoritmo calcula resultados mais precisos.

Diferentes algoritmos analisam dados de maneiras diferentes. Geralmente, eles são agrupados pelas técnicas de aprendizado de máquina para as quais são usados: aprendizado supervisionado, aprendizado não supervisionado e aprendizado de reforço. Os algoritmos usados com mais frequência usam a regressão e a classificação para prever categorias de destino, encontrar pontos de dados incomuns, prever valores e descobrir semelhanças.

Tendo isso em mente, vamos conhecer os 5 algoritmos de aprendizado de máquina mais importantes:

  1. Algoritmos de Ensemble Learning;
  2. Algoritmos explicativos;
  3. Algoritmos de agrupamento;
  4. Algoritmos de Redução de Dimensionalidade;
  5. Algoritmos de semelhança.

1. Algoritmos de Ensemble Learning (Random Forests, XGBoost, LightGBM, CatBoost)

O que são algoritmos de Ensemble Learning?

Para entender o que eles são, primeiro você precisa saber o que é o Método Ensemble. Esse método consiste no uso simultâneo de  vários modelos ​​para obter melhor desempenho do que um único modelo em si.

Conceitualmente, considere a seguinte analogia:

Imagem Terence Shin

Imagine a seguinte situação: em uma sala de aula é dado o mesmo problema de matemática para um único aluno e para um grupo de alunos. Nessa situação, o grupo de alunos pode resolver o problema de forma colaborativa, verificando as respostas uns dos outros e decidindo por unanimidade sobre uma única resposta. Por outro lado, um aluno, sozinho, não tem esse privilégio – ninguém mais está lá para colaborar ou questionar sua resposta.

E assim, a sala de aula com vários alunos é semelhante a um algoritmo de Ensemble com vários algoritmos menores trabalhando juntos para formular uma resposta final.

 

Saiba mais sobre o Ensemble Learning neste artigo.

Quando são úteis?

Os algoritmos de Ensemble Learning são mais úteis para problemas de regressão e classificação ou problemas de aprendizado supervisionado. Devido à sua natureza inerente, eles superam todos os algoritmos tradicionais de Machine Learning, como Naïve Bayes, máquinas vetoriais de suporte e árvores de decisão.

Algoritmos

2. Algoritmos Explicativos (Regressão Linear, Regressão Logística, SHAP, LIME)

O que são algoritmos explicativos?

Algoritmos explicativos permitem identificar e compreender variáveis ​​que possuem relação estatisticamente significativa com o resultado. Portanto, em vez de criar um modelo para prever valores da variável de resposta, podemos criar modelos explicativos para entender as relações entre as variáveis ​​no modelo.

Do ponto de vista da regressão, há muita ênfase nas variáveis estatisticamente significativas. Por quê? Quase sempre, você estará trabalhando com uma amostra de dados, que é um subconjunto de toda a população. Para tirar conclusões sobre uma população, dada uma amostra, é importante garantir que haja significância suficiente para fazer uma suposição confiável.

Imagem Terence Shin

Recentemente, também houve o surgimento de duas técnicas populares, SHAP e LIME, que são usadas para interpretar modelos de Machine Learning.

Quando são úteis?

Modelos explicativos são úteis quando você quer entender “por que” uma decisão foi tomada ou quando você quer entender “como” duas ou mais variáveis ​​estão relacionadas entre si.

Na prática, a capacidade de explicar o que seu modelo de Machine Learning faz é tão importante quanto o desempenho do próprio modelo. Se você não puder explicar como um modelo funciona, ninguém confiará nele e ninguém o usará.

Tipos de Algoritmos

Modelos explicativos tradicionais baseados em testes de hipóteses:

  • Regressão linear
  • Regressão Logística

Algoritmos para explicar modelos de Machine Learning:

3. Algoritmos de Agrupamento (k-Means, Agrupamento Hierárquico)

Imagem Terence Shin

O que são algoritmos de agrupamento?

Esses algoritmos são usados ​​para realizar análises de agrupamento, que é uma tarefa de aprendizado não supervisionada que envolve o agrupamento de dados. Ao contrário do aprendizado supervisionado, no qual a variável de destino é conhecida, não há variável de destino nas análises de agrupamento.

Quando são úteis?

O clustering é particularmente útil quando você deseja descobrir padrões e tendências naturais em seus dados. É muito comum que as análises de cluster sejam realizadas na fase de EDA, para descobrir mais informações sobre os dados.

Da mesma forma, o agrupamento permite identificar diferentes segmentos dentro de um dataset com base em diferentes variáveis. Um dos tipos mais comuns de segmentação por cluster é a segmentação de usuários/clientes.

 

Tipos de Algoritmos

Os dois algoritmos de agrupamento mais comuns são agrupamento k-means e agrupamento hierárquico, embora existam muitos mais:

4. Algoritmos de Redução de Dimensionalidade (PCA, LDA)

O que são algoritmos de redução de dimensionalidade?

Os algoritmos de redução de dimensionalidade referem-se a técnicas que reduzem o número de variáveis ​​de entrada (ou variáveis ​​de recursos) em um dataset. A redução de dimensionalidade é essencialmente usada para lidar com a maldição da dimensionalidade, um fenômeno que afirma, “à medida que a dimensionalidade (o número de variáveis ​​de entrada) aumenta, o volume do espaço cresce exponencialmente resultando em dados esparsos.

Quando são úteis?

As técnicas de redução de dimensionalidade são úteis em muitos casos:

  1. Eles são extremamente úteis quando você tem centenas ou até milhares de recursos em um dataset e precisa selecionar alguns.
  2. Eles são úteis quando seus modelos de ML estão super ajustando os dados, o que implica que você precisa reduzir o número de recursos de entrada.

Tipos de Algoritmos

Abaixo estão os dois algoritmos de redução de dimensionalidade mais comuns:

5. Algoritmos de similaridade (KNN, Distância Euclidiana, Cosseno, Levenshtein, Jaro-Winkler, SVD, etc…)

O que são algoritmos de similaridade?

Algoritmos de similaridade são aqueles que computam a similaridade de pares de registros/nós/pontos de dados/texto. Existem algoritmos de similaridade que comparam a distância entre dois pontos de dados, como a distância euclidiana, e também existem algoritmos de similaridade que calculam a similaridade de texto, como o Algoritmo Levenshtein.

Quando são úteis?

Esses algoritmos podem ser usados ​​em uma variedade de aplicações, mas são particularmente úteis para recomendação.

  • Quais artigos o Medium deve recomendar a você com base no que você leu anteriormente?
  • Qual música o Spotify deve recomendar com base nas músicas que você já gostou?
  • Quais produtos a Amazon deve recomendar com base no seu histórico de pedidos?

Estes são apenas alguns dos muitos exemplos em que algoritmos de similaridade e recomendação são usados ​​em nossas vidas cotidianas.

Tipos de Algoritmos

Abaixo está uma lista não exaustiva de alguns algoritmos de similaridade. Se você quiser ler sobre mais algoritmos de distância, confira este artigo. E se você também se interessar por algoritmos de similaridade de strings, leia este artigo.

Se você gostou desse conteúdo, acompanhe as próximas postagens do Insight Lab aqui e também nas redes sociais!

Fontes: Terence Shin e Azure.

 

 

Categorias
Dados Inteligência Artificial Machine Learning

6 passos Para Criar Seu Primeiro Projeto de Machine Learning

Aqui você verá as várias etapas envolvidas em um projeto de Machine Learning (ML). Existem etapas padrões que você deve seguir para um projeto de Ciência de Dados. Para qualquer projeto, primeiro, temos que coletar os dados de acordo com nossas necessidades de negócios. A próxima etapa é limpar os dados como remover valores, remover outliers, lidar com conjuntos de dados desequilibrados, alterar variáveis ​​categóricas para valores numéricos, etc.

Depois do treinamento de um modelo, use vários algoritmos de aprendizado de máquina e aprendizado profundo. Em seguida, é feita a avaliação do modelo usando diferentes métricas, como recall, pontuação f1, precisão, etc. Finalmente, a implantação do modelo na nuvem e retreiná-lo. Então vamos começar:

Fluxo de trabalho do projeto de Aprendizado de Máquina

1. Coleta de dados

Perguntas a serem feitas: 

  • Que problema deve ser resolvido?
  • Que dados existem? 
  • Onde você pode obter esses dados? São públicos? 
  • Existem preocupações com a privacidade?
  • É estruturado ou não estruturado?

Tipos de dados

Dados estruturados: aparecem em formato tabular (estilo linhas e colunas, como o que você encontraria em uma planilha do Excel). Ele contém diferentes tipos de dados, por exemplo: numéricos, categóricos, séries temporais.

  • Nominal / categórico – Uma coisa ou outra (mutuamente exclusivo). Por exemplo, para balanças de automóveis, a cor é uma categoria. Um carro pode ser azul, mas não branco. Um pedido não importa.
  • Numérico: qualquer valor contínuo em que a diferença entre eles importa. Por exemplo, ao vender casas o valor de R$ 107.850,00 é maior do que R$ 56.400,00.
  • Ordinal: Dados que têm ordem, mas a distância entre os valores é desconhecida. Por exemplo, uma pergunta como: como você classificaria sua saúde de 1 a 5? 1 sendo pobre, 5 sendo saudável. Você pode responder 1,2,3,4,5, mas a distância entre cada valor não significa necessariamente que uma resposta de 5 é cinco vezes melhor do que uma resposta de 1.
  • Séries temporais: dados ao longo do tempo. Por exemplo, os valores históricos de venda de Bulldozers de 2012-2018.

Dados não estruturados: dados sem estrutura rígida (imagens, vídeo, fala, texto em linguagem natural)

2. Preparação de dados

2.1 Análise Exploratória de Dados (EDA), aprendendo sobre os dados com os quais você está trabalhando 

  • Quais são as variáveis ​​de recursos (entrada) e as variáveis de destino (saída)? Por exemplo, para prever doenças cardíacas, as variáveis ​​de recursos podem ser a idade, peso, frequência cardíaca média e nível de atividade física de uma pessoa. E a variável de destino será a informação se eles têm ou não uma doença.
  • Que tipo de dado você tem? Estruturado, não estruturado, numérico, séries temporais. Existem valores ausentes? Você deve removê-los ou preenchê-los com imputação de recursos.
  • Onde estão os outliers? Quantos deles existem? Por que eles estão lá? Há alguma pergunta que você possa fazer a um especialista de domínio sobre os dados? Por exemplo, um médico cardiopata poderia lançar alguma luz sobre seu dataset de doenças cardíacas?

2.2 Pré-processamento de dados, preparando seus dados para serem modelados.

  • Imputação de recursos: preenchimento de valores ausentes, um modelo de aprendizado de máquina não pode aprender com dados que não estão lá.
  1. Imputação única: Preencha com a média, uma mediana da coluna;
  2. Múltiplas imputações: modele outros valores ausentes e com o que seu modelo encontrar;
  3. KNN (k-vizinhos mais próximos): Preencha os dados com um valor de outro exemplo semelhante;
  4. Imputação aleatória, última observação transportada (para séries temporais), janela móvel e outros.
  •  Codificação de recursos (transformando valores em números). Um modelo de aprendizado de máquina exige que todos os valores sejam numéricos.
  • Uma codificação rápida:  Transforme todos os valores exclusivos em listas de 0 e 1, onde o valor de destino é 1 e o resto são 0s. Por exemplo, quando as cores de um carro são verdes, vermelhas, azuis, verdes, o futuro das cores de um carro seria representado como [1, 0 e 0] e um vermelho seria [0, 1 e 0].
  • Codificador de rótulo: Transforme rótulos em valores numéricos distintos. Por exemplo, se suas variáveis ​​de destino forem animais diferentes, como cachorro, gato, pássaro, eles podem se tornar 0, 1 e 2, respectivamente.
  • Codificação de incorporação: aprenda uma representação entre todos os diferentes pontos de dados. Por exemplo, um modelo de linguagem é uma representação de como palavras diferentes se relacionam entre si. A incorporação também está se tornando mais amplamente disponível para dados estruturados (tabulares).
  • Normalização de recursos (dimensionamento) ou padronização: quando suas variáveis ​​numéricas estão em escalas diferentes (por exemplo, number_of_bathroom está entre 1 e 5 e size_of_land entre 500 e 20000 pés quadrados), alguns algoritmos de aprendizado de máquina não funcionam muito bem. O dimensionamento e a padronização ajudam a corrigir isso.
  •  Engenharia de recursos: transforma os dados em uma representação (potencialmente) mais significativa, adicionando conhecimento do domínio.
  1. Decompor;
  2. Discretização: transformando grandes grupos em grupos menores;
  3. Recursos de cruzamento e interação: combinação de dois ou mais recursos;
  4. Características do indicador: usar outras partes dos dados para indicar algo potencialmente significativo.
  • Seleção de recursos:  selecionar os recursos mais valiosos de seu dataset para modelar. Potencialmente reduzindo o overfitting e o tempo de treinamento (menos dados gerais e menos dados redundantes para treinar) e melhorando a precisão.
  1. Redução de dimensionalidade: Um método comum de redução de dimensionalidade, PCA ou análise de componente principal, toma um grande número de dimensões (recursos) e usa álgebra linear para reduzi-los a menos dimensões. Por exemplo, digamos que você tenha 10 recursos numéricos, você poderia executar o PCA para reduzi-los a 3;
  2. Importância do recurso (pós-modelagem): ajuste um modelo a um dataset, inspecione quais recursos foram mais importantes para os resultados e remova os menos importantes;
  3. Os métodos Wrapper geram um subconjunto “candidato”, contendo atributos selecionados no conjunto de treinamento, e utilizam a precisão resultante do classificador para avaliar o subconjunto de atributos “candidatos”.
  •  Lidando com desequilíbrios: seus dados têm 10.000 exemplos de uma classe, mas apenas 100 exemplos de outra?
  1. Colete mais dados (se puder);
  2. Use o pacote scikit-learn-contrib imbalanced- learn;
  3. Use SMOTE: técnica de sobreamostragem de minoria sintética. Ele cria amostras sintéticas de sua classe secundária para tentar nivelar o campo de jogo.

2.3 Divisão de dados

  • Conjunto de treinamento: geralmente  o modelo aprende com 70-80% dos dados;
  • Conjunto de validação: normalmente os hiperparâmetros do modelo são ajustados com 10-15% dos dados;
  • Conjunto de teste: geralmente o desempenho final dos modelos é avaliado com 10-15% dos dados. Se você fizer certo os resultados no conjunto de teste fornecerão uma boa indicação de como o modelo deve funcionar no mundo real. Não use este dataset para ajustar o modelo.

3. Treinamento e Otimização do Modelo

Escolha de algoritmos

  1.  Algoritmos supervisionados – Regressão Linear, Regressão Logística, KNN, SVMs, Árvore de decisão e florestas aleatórias, AdaBoost / Gradient Boosting Machine (boosting);
  2. Algoritmos não supervisionadosClustering, redução de dimensionalidade (PCA, Autoencoders, t-SNE), Uma detecção de anomalia.

 Tipos de aprendizagem

  1. Aprendizagem em lote;
  2. Aprendizagem online;
  3. Aprendizagem de transferência;
  4. Aprendizado ativo;
  5. Ensembling.

Plataforma para detecção e segmentação de objetos.

  • Engenharia de atributos
  • Seleção de atributos
  1. Tipos de Algoritmos e Métodos: Filter Methods, Wrapper Methods, Embedded Methods;
  2. Seleção de Features com Python;
  3. Testes estatísticos: podem ser usados para selecionar os atributos que possuem forte relacionamento com a variável que estamos tentando prever. Os métodos disponíveis são:
  4. f_classif: é adequado quando os dados são numéricos e a variável alvo é categórica.
  5. mutual_info_classif é mais adequado quando não há uma dependência linear entre as features e a variável alvo.
  6. f_regression aplicado para problemas de regressão.
  7. Chi2: Mede a dependência entre variáveis estocásticas, o uso dessa função “elimina” os recursos com maior probabilidade de serem independentes da classe e, portanto, irrelevantes para a classificação;
  8. Recursive Feature Elimination – RFE: Remove recursivamente os atributos e constrói o modelo com os atributos remanescentes, ou seja, os modelos são construídos a partir da remoção de features;
  9. Feature Importance: Métodos ensembles como o algoritmo Random Forest, podem ser usados para estimar a importância de cada atributo. Ele retorna um score para cada atributo, quanto maior o score, maior é a importância desse atributo.

Ajuste e regularização

  1.  Underfitting – acontece quando seu modelo não funciona tão bem quanto você gostaria. Tente treinar para um modelo mais longo ou mais avançado.
  2. Overfitting – acontece quando sua perda de validação começa a aumentar ou quando o modelo tem um desempenho melhor no conjunto de treinamento do que no conjunto de testes.
  3. Regularização: uma coleção de tecnologias para prevenir / reduzir overfitting (por exemplo, L1, L2, Dropout, Parada antecipada, Aumento de dados, normalização em lote).

Ajuste de hiperparâmetrosexecute uma série de experimentos com configurações diferentes e veja qual funciona melhor.

 

4. Análise / Avaliação

Avaliação de métricas

  1. Classificação – Acurácia, precisão, recall, F1, matriz de confusão, precisão média (detecção de objeto);
  2. Regressão – MSE, MAE, R ^ 2;
  3. Métrica baseada em tarefas – por exemplo, para um carro que dirige sozinho, você pode querer saber o número de desengates.

  • Engenharia de atributos
  • Custo de treinamento / inferência.

 

5. Modelo de Serviço (implantação de um modelo) 

 Coloque o modelo em produção;

  1.  Ferramentas que você pode usar: TensorFlow Servinf, PyTorch Serving, Google AI Platform, Sagemaker;
  2.  MLOps: onde a engenharia de software encontra o aprendizado de máquina, basicamente toda a tecnologia necessária em torno de um modelo de aprendizado de máquina para que funcione na produção.

  • Usar o modelo para fazer previsões;
  • Reavaliar.

 

6. Modelo de retreinamento

O modelo ainda é válido para novas cargas de trabalho?

  1. Veja o desempenho do modelo após a veiculação (ou antes da veiculação) com base em várias métricas de avaliação e reveja as etapas acima conforme necessário. Lembre-se de que o aprendizado de máquina é muito experimental, então é aqui que você deverá rastrear seus dados e experimentos;
  2.  Você também verá que as previsões do seu modelo começam a “envelhecer” ou “flutuar”, como quando as fontes de dados mudam ou atualizam (novo hardware, etc.). É quando você deverá retreiná-lo.

Ferramentas de Aprendizado de Máquina

Fonte: Analytics Vidhya

O que você achou desse guia? Contribua, deixe uma sugestão nos comentários!

Categorias
Big Data Ciência de Dados Dados

Conheça as joias do infinito na Ciência de Dados

Quais são as joias do infinito da Ciência de Dados? As seis joias do universo Marvel Comics você já deve conhecer: Espaço, Mente, Alma, Realidade, Tempo e Poder.  Quando usadas em conjunto, dão ao seu portador poderes que o torna capaz de controlar todo o universo!

Mas como seriam estes poderosos artefatos usados na Data Science (DS)? Você pode unir diversos poderes para dominar o universo dos dados e assim se tornar um super Cientista de Dados!

Quer saber quais são essas joias? Então vamos lá!

 

? Pedra da Realidade 

A Pedra da Realidade concede ao usuário o poder de manipular a matéria.

Presumivelmente, para manipular a realidade, temos que entendê-la. Essa parece ser uma analogia boa (o suficiente) para a importância do conhecimento do domínio (uma vez que um bom cientista de dados não manipula a realidade, certo?).

Iniciar um projeto de DS sem uma compreensão do domínio do projeto não é apenas uma má ideia, como resultado final provavelmente não retratará a  realidade. Assim como não permitimos que atletas competentes que nunca aprenderam as regras do beisebol joguem  da mesma forma, não devemos esperar ser capazes de realizar Ciência de Dados de maneira competente em um domínio que não entendemos, independentemente de nossas habilidades estatísticas, analíticas, técnicas e relacionadas.

O que exatamente constitui conhecimento de domínio? É relativo. Você está fazendo uma análise descritiva superficial de algum aplicativo de namoro? Ou você está empreendendo algum projeto de análise preditiva aprofundado em finanças para uma organização que se especializou em alguma estratégia obscura de investimento em títulos? O conhecimento necessário do domínio de “namoro” para realizar o primeiro feito é provavelmente insignificante, mas quaisquer insights úteis sobre o segundo certamente exigirão um conhecimento financeiro sólido.

 

? Pedra do Espaço 

 

A Pedra do Espaço dá ao usuário poder sobre o espaço.

Poder sobre o espaço, hein? Que tal poder sobre o espaço de dados? E como alguém obteria poder sobre seu espaço de dados? Conhecimento íntimo, por meio de análise exploratória de dados.

Mas quanta Análise de Dados e exatamente de que tipo de análise estamos falando? Isso vai te surpreender, mas … é relativo. Se estamos interessados ​​em Análise Descritiva – isto é, nenhuma previsão, ao longo das linhas de uma análise de dados direta – quanto mais intimamente estivermos familiarizados com os dados, melhor. O fim é o meio neste caso, e portanto a qualidade de descrever, visualizar e compartilhar os dados, como um analista de dados, está altamente correlacionada com a intimidade da exploração.

Quando se trata de Análise Preditiva e empreendimentos de Machine Learning, existem opiniões divergentes sobre o quanto a análise exploratória de dados é útil. Existem também opiniões divergentes sobre o nível de análise exploratória de datasets que não estão sendo usados ​​para treinamento (ou seja, conjuntos de validação e teste). Deixando isso de lado, para garantir que o poder máximo sobre seu espaço de dados seja alcançado, certifique-se de se proteger contra as armadilhas potenciais de análises de dados exploratórias deficientes ou visualizações de má qualidade, como a falácia da correlação, o paradoxo de Simpson e a falácia ecológica.

Quando realizada de maneira adequada, a análise exploratória de dados fornecerá uma compreensão de seus dados de uma forma que permita o acompanhamento de uma Ciência de Dados bem-sucedida.

 

? Pedra do Tempo

A Pedra do Tempo concede ao seu proprietário o poder de rebobinar ou avançar o tempo.

Se você estudou a complexidade do algoritmo, sabe que a escolha do algoritmo pode impactar severamente o tempo que leva para completar uma determinada tarefa de computação, mesmo com os mesmos dados, e é por esta razão que a seleção do algoritmo e do método é o nosso equivalente a ser capaz de manipular o tempo.

Isso se aplica tanto à seleção completa de algoritmos quanto à configuração de hiperparâmetros, que também têm impacto no tempo de execução. As arquiteturas de rede neural podem ser incrivelmente complexas, mas um par de redes neurais simples equivalentes pode ter tempos de convergência muito diferentes ao usar taxas de aprendizado muito desiguais.

Você sabe sobre a compensação de viés-variância, mas também há uma compensação de espaço-tempo, bem como uma compensação de complexidade-velocidade que pode ser feita. Um modelo de Regressão Logística pode não funcionar tão bem quanto um de Random Forest de milhares de árvores, mas esse impacto no desempenho pode valer a pena para você em troca de velocidade, para não falar do aumento na aplicabilidade que o modelo de Regressão Logística pode fornecer frente ao Random Forest (se essa for sua escolha).

Isso não quer dizer que você deva escolher um algoritmo mais rápido (ou menos complexo, ou menos intensivo em computação ou mais explicável), mas você precisa ter em mente que é uma das compensações que você está fazendo e uma das melhores maneiras que temos de controlar o fluxo do tempo.

 

? Pedra do Poder 

 

A Pedra do Poder concede ao seu portador uma grande quantidade de energia – o tipo de energia que você poderia usar para destruir um planeta inteiro.

Isso soa como muita energia. Onde encontramos esse tipo de energia no mundo da Ciência de Dados? Poder computacional!

Poder computacional (ou “computação”) são os recursos computacionais coletivos que temos para lançar em um problema particular. A computação ilimitada já foi considerada a essência e o fim de tudo da computação, e por um bom motivo. Considere quão pouca computação havia uma, duas ou três décadas atrás, em comparação com hoje. Imagine cientistas pensando sobre problemas que poderiam resolver, se ao menos tivessem mais do que um punhado de MHz de computação à sua disposição. O céu seria o limite!

Claro, não foi exatamente assim que as coisas aconteceram. Temos muito mais computação à nossa disposição agora do que jamais tivemos no passado na forma de supercomputadores, a nuvem, APIs publicamente disponíveis apoiadas por grandes quantidades de computação e até mesmo nossos próprios notebooks e smartphones. Todos os tipos de problemas que nunca poderíamos imaginar que teriam computação suficiente para resolver agora são tratáveis, e isso é um grande desenvolvimento. Precisamos ter em mente, no entanto, que “inteligente” é um grande contrapeso para computar, e muitos avanços na Ciência de Dados e suas tecnologias de apoio foram possibilitados pelo cérebro em vez da força.

Idealmente, um equilíbrio perfeito de cérebro e força muscular poderia ser usado para atacar todos os problemas existentes, com o uso inteligente para configurar uma abordagem algorítmica perfeita e a computação necessária disponível para apoiá-la. Talvez esta seja uma área que a Ciência de Dados um dia venha a provar ser útil.

Até então, tenha certeza de que há computação disponível até mesmo para as abordagens menos que perfeitas para a solução de problemas.

 

Pedra da alma

Não está claro quais são os poderes da Pedra da Alma no universo cinematográfico. Nos quadrinhos, a joia permite que o portador capture e controle as almas dos outros.

“Capture e controle as almas dos outros” soa ameaçador, e mais do que apenas um pouco tortuoso. Mas se dermos uma visão mais positiva do conceito de Pedra da Alma, poderíamos forçar uma equivalência entre ela e o poder de predição. Estamos treinando modelos para controlar a essência mais íntima dos dados não rotulados – sua alma – fazendo previsões informadas sobre o que realmente contém.

Isso não é um exagero. Certo!?

A Pedra da Alma, então, é análoga ao poder de predição, o que quer dizer que está no cerne absoluto da Data Science. O que os cientistas de dados estão tentando realizar? Eles estão tentando responder a perguntas interessantes com os dados disponíveis, a fim de fazer previsões que se alinham o mais próximo possível com a realidade. Essa parte da previsão parece bastante crucial.

E, por ser tão crucial, deve ficar evidente que os resultados devem ser tratados com o máximo cuidado. A alma do nosso trabalho é o valor que ele pode criar seja para negócios, instituições de caridade, governo ou sociedade em geral.

A Ciência de Dados é uma luta pela alma, juntamente com a próxima batalha pela mente.

 

? Pedra da Mente 

A Pedra da Mente permite ao usuário controlar as mentes dos outros.

E no mundo do Data Science, nada melhor para ajudar a controlar as mentes dos outros do que uma apresentação de dados bem elaborada, incluindo uma história atraente e visualizações eficazes.

A modelagem está completa. As previsões foram feitas. Os insights são perspicazes. Agora é hora de informar as partes interessadas do projeto sobre os resultados. Mas os demais profissionais que trabalham em uma equipe, além dos cientistas de dados, não têm os mesmos entendimentos sobre os dados e seu processo, então precisamos ser claros ao apresentar nossas descobertas a eles de uma forma que entendam.

Lembre-se, se seus insights não estiverem claros, então seu trabalho não está completo. Cabe a você convencer os outros do valor do seu trabalho. Uma vez convencidos, eles podem agir e a mudança por meio da ação é a verdadeira recompensa de qualquer projeto de Ciência de Dados.

 

Este artigo foi traduzido de Matthew Mayo no KDnuggets.

Categorias
Dados LGPD Segurança

A LGPD (Lei Geral de Proteção de Dados) e seu impacto no Big Data

No último dia 18 de setembro, entrou em vigor a LGPD, Lei Geral de Proteção de Dados. A lei, de modo geral, trata da proteção de dados dos usuários pelas corporações. Estas terão que se adaptar às novas regras de tratamento dos dados de seus clientes e usuários. Toda as empresas, que de alguma forma manipulam dados dos seus clientes, serão atingidas pelas novas regras. Este tipo de lei já existe na União Europeia e vinha sendo discutida aqui no Brasil há alguns anos.

O que é a LGPD?

A lei nº 13.709 foi aprovada em agosto de 2018 no governo do então presidente Michel Temer. O intuito desta lei é regulamentar a coleta e tratamento de dados pessoais para protegê-los, mantendo sua privacidade e dando transparência à relação entre usuários e organizações.

O artigo 20 da Lei Geral de Proteção de Dados declara que todo titular de dados tem o direito de solicitar a revisão de suas decisões tomadas em relação ao tratamento automatizado de suas informações, especialmente quando essas afetem seus interesses, como o perfil profissional, consumo, crédito e dados de personalidade.

O titular, pessoa natural a quem se referem os dados pessoais que são objeto de tratamento, deverá, a partir de agora, autorizar a coleta, uso e tratamento de seus dados. Dessa forma o indivíduo passa a ter autonomia sobre suas próprias informações, adquirindo direitos como questionar às organizações quais dados elas armazenam, ter acesso a eles e até mesmo exigir que eles sejam apagados caso estejam em desconformidade com a LGPD.

Mas que dados são esses?

Qualquer informação que identifique um usuário, podendo ser desde um número de telefone a dados sensíveis, aqueles que podem ser usados de maneira discriminatória como raça, etnia, religião, posição política, dados referentes à saúde e vida sexual.

De acordo com a lei, existe ainda a classificação de dado pessoal anonimizado, ou seja, referente à pessoa que não possa ser identificada. Contudo, estes não sofrem a aplicação da lei, salvo se o anonimato for revertido e que estes dados não sejam usados para formação de perfis comportamentais.

Dados anônimos em IA e ML

O uso de Dados anônimos são bastante utilizados em Inteligência Artificial e Machine Learning. No ano de 2019, a empresa de vestuário Hering teve que se explicar ao Idec ( Instituto Brasileiro de Defesa do Consumidor) diante do uso de dados de reconhecimento facial que coleta em uma de suas lojas localizada em São Paulo. De acordo com a empresa, esses dados são anonimizados e sendo assim, não poderiam identificar as pessoas que aparecem nas imagens.

O impacto da LGPD no Big Data

Haverá, diante de toda essa mudança, um grande impacto no que se refere ao Big Data, visto que a obtenção de dados automatizada, como nas técnicas de mineração e geração de profiling, basicamente consiste nas informações em relação a um usuário, via tratamento de dados, o que pode ferir as regras da LGPD se não estiver adaptada.

Isso porque esse tipo de abordagem resulta na obtenção de dados pessoais, a técnica analisa dentre outras coisas, o comportamento das pessoas e suas características, fatores que segundo a LGPD não podem mais ser obtidos sem a legítima autorização do indivíduo, salvo em casos de legítimo interesse.

A LGPD, a princípio, terá esse impacto reestruturante especialmente nessas atividades de coleta e tratamento de informações que são primordiais para a formação desse grande volume de dados que chamamos de  Big Data.

Perspectivas esperançosas a longo prazo

Ainda que inicialmente isso represente uma redução desse tipo de atividade, tempo necessário para que as empresas aprendam o modo de fazer e aplicar esse tipo de técnica de maneira segura para garantir o compliance, a regulamentação é de extrema importância para muitos mercados e deve continuar a longo prazo.

Com um ambiente mais seguro e adequado aos direitos de cada consumidor, uma nova era deve surgir com maior confiança e transparência no tratamento de dados nos espaços corporativos, e essa confiança é essencial para que a tecnologia passe por uma manutenção em seu modo de existir em uma sociedade conectada.

 

Gostou da matéria? Comenta o que você achou!

 

Fontes:cnnbrasil.com.br e compugraf.com.br

Categorias
Big Data Ceará Dados

SSPDS inicia banco de dados sobre pichações para mapear grupos criminosos no Ceará

A Secretaria da Segurança Pública e Defesa Social do Estado do Ceará (SSPDS/CE) iniciou o mapeamento da atuação de grupos criminosos do Ceará com a coleta de dados sobre pichações em edificações e muros utilizando inteligência artificial. Baseado na ciência de dados, o aplicativo Portal de Comando Avançado (PCA) agora oferece a função “pichação”, que reunirá dados para estabelecer padrões e comportamentos de integrantes desses grupos no Estado. Essa será mais uma ferramenta para subsidiar o trabalho das agências de inteligência policiais do Estado, reunindo um banco de dados com informações que serão integradas ao Big Data da Segurança Pública.

A primeira coleta da iniciativa aconteceu, nessa segunda-feira (13), durante implantação da 30ª base do Programa de Proteção Territorial e Gestão de Risco (Proteger), a unidade fica no município de Caucaia, na Região Metropolitana de Fortaleza.

Forma de expressão mais utilizada por integrantes de organizações criminosas, as pichações funcionam como instrumento para demarcar territórios, fazer ameaças a rivais e tentar demonstrar poder sobre uma área delimitada. A partir dessa premissa e baseado na análise de comportamentos coletivo e individualizado dos investigados, a SSPDS inicia um levantamento que irá produzir material de inteligência policial para apoiar a investigação criminal e o planejamento de patrulhamento ostensivo realizado pelas agências de segurança pública do Estado. Na prática, os próprios criminosos irão fornecer material para a Polícia alimentar o Big Data; aquilo que pode parecer demonstração de força será empregada para enfraquecer suas ações e fortalecer a segurança pública do Ceará.

 

 

Todas as informações serão alimentadas utilizando o Programa de Comando Avançado (PCA), aplicativo para celulares de uso exclusivo de profissionais da segurança pública do Ceará. Lembrando que pichar é crime conforme a Lei de Crimes Ambientais, com pena detenção que chega até um ano, e multa.

Para o secretário da SSPDS, André Costa, essa é mais uma inovação desenvolvida pela Secretaria na área de ciência policial e tecnologia aplicadas à segurança pública, que vai servir de exemplo para todo o País e América Latina. “Essa nova função que a gente começa a usar hoje (segunda-feira, dia 13) vai permitir que todo policial, a partir de agora, torne-se um agente de inteligência. Ele vai poder, através do smartphone, inserir uma fotografia, que será georreferenciada, ou seja, o próprio celular já vai dar a localização de onde ela (a pichação) está e também marcar o dia e hora dessa fotografia. Ele ainda vai incluir qual o grupo criminoso a que se refere à pichação. Quando esses criminosos picharem o local e os policiais fotografarem e enviarem esses dados, eles entram na base do nosso Big Data da Segurança Pública”, explica.

Os dados compilados na função “Pichação” no aplicativo PCA servirão para construir parâmetros de atuação dos grupos criminosos no Estado e para fomentar estratégias policiais de combate aos crimes nessas áreas. “Os policiais das áreas de investigação e inteligência vão poder ver os dados em um mapa e, assim, a gente vai ter um mapeamento atualizado com dados de determinado grupo criminoso em qual área, bairro ou comunidade ele se encontra. Isso é fundamental para as ações de inteligência tanto para as investigações como também para que o próprio patrulhamento possa organizar seus efetivos e entender quais áreas devem ser priorizadas”, destaca André Costa.

Junto à estratégia de inteligência para coletar dados para uso da segurança pública, os locais onde os policiais encontrarem pichações com marcas de grupos criminosos serão pintados. “Iremos cobrir essas pichações e tirar essas identidades visuais. Isso é muito negativo aqui, especialmente para a juventude, que vê esse exemplo envolvendo facções”, frisou André Costa.

Na palma da mão

O funcionamento da iniciativa é semelhante ao que já acontece com outras ferramentas tecnológicas criadas e desenvolvidas pela SSPDS, em laboratórios cearenses, por meio de pesquisadores financiados pelo Estado do Ceará e com a participação direta de profissionais do Sistema de Segurança do Ceará. O dispositivo utilizado para a função “Pichação” é o Programa de Comando Avançado (PCA), aplicativo para celular que integra bases civil e criminal da população do Estado, dados de veículos e motoristas, biometria e o reconhecimento facial. A nova função já está disponível para atualização nas lojas virtuais para usuários que utilizam os sistemas operacionais iOS e Android. O uso é exclusivo para servidores da segurança pública.

 

 

Como funciona?

Com um smartphone nas mãos e com o aplicativo PCA aberto, o policial vai iniciar o cadastro da pichação inserindo informações relevantes sobre as características encontradas no local. Primeiro, ele vai marcar a qual grupo criminoso pertence aquela pichação, em seguida, incluir uma descrição apontando onde a pichação foi encontrada, como por exemplo, “na parede de uma casa”, “na fachada de um estabelecimento comercial”. O próximo passo é acionar a câmera do celular para fazer o registro fotográfico das inscrições deixadas pelos criminosos. Por fim, o policial vai posicionar no mapa a localização exata da pichação utilizando o GPS do aparelho celular e concluir o cadastro na ferramenta. Em tempo real, as informações são transmitidas para o Big Data para acesso das agências de inteligência policial do Estado.

Tecnologia compartilhada

A função “Pichação” foi desenvolvida numa parceria entre a Secretaria da Segurança Pública e Defesa Social do Estado do Ceará (SSPDS/CE) e o Laboratório de Processamento de Imagem, Sinais e Computação Aplicada (Lapisco), vinculado ao Instituto Federal de Educação, Ciência e Tecnologia do Ceará (IFCE). A colaboração entre as instituições também propiciou a criação e uso do reconhecimento facial, outra ferramenta disponível ao policial que acessa o aplicativo PCA. Juntos, SSPDS e IFCE constroem soluções para aprimorar o uso da tecnologia aplicada à segurança pública a partir da análise de sinais (áudio, voz, imagem, vídeo).

Big Data da Segurança Pública

A criação do Big Data da Segurança Pública, batizado de “Odin”, é fruto da parceria entre a SSPDS e pesquisadores da Universidade Federal do Ceará (UFC). A ferramenta integra mais de 100 sistemas dos órgãos de Segurança Pública do Estado e de instituições parceiras em uma única plataforma. Ela permite a tomada de decisão baseada em dados, feita de forma automática e em tempo real, dando maior celeridade aos processos e economia de tempo. Além disso, o “Odin” facilita o processo de investigação e inteligência policial com o detalhamento de territórios e informações de caráter investigativo, contribuindo para a formulação de estratégias de combate à criminalidade.

 

Fonte: Governo do Estado do Ceará

 

 

Categorias
Big Data Dados Mineração de Processos

O Papel da Mineração de Processos na Ciência de Dados

O interesse pela ciência de dados está crescendo rapidamente. Muitos a consideram como a profissão do futuro. O hype relacionado à Big Data e à análise preditiva ilustra isso. (“Big” e “Small”) Data são essenciais para pessoas e organizações, aumentando sua importância. No entanto, não é suficiente se concentrar no armazenamento e análise de dados. Um cientista de dados também precisa relacionar dados a processos operacionais e ser capaz de fazer as perguntas certas. 

A relevância da Mineração de Processos

Na última década, Process Mining (Mineração de Processos) surgiu como um novo campo de pesquisa que se concentra na análise de processos usando dados de eventos. As técnicas clássicas de mineração de dados, como classificação, clustering, regressão, aprendizado de regras de associação, não se concentram nos modelos de processos de negócios e geralmente são usadas apenas para analisar uma etapa específica do processo geral. 

Mineração de Processos se concentra nos processos fim-a-fim e isso é possível devido à crescente disponibilidade de dados de eventos e novas técnicas de descoberta de processos e verificação de conformidade. A relevância prática da mineração de processos e os interessantes desafios científicos tornaram essa nova área um dos hot topics da ciência de dados. 

O que é a mineração de processos? 

Primeiro precisamos definir formalmente o que essa nova área aborda. O ponto de partida para a mineração de processos é um log de eventos. Cada evento nesse log refere-se a uma atividade (isto é, uma etapa bem definida em algum processo) e está relacionado a um caso específico (isto é, uma instância do processo). 

Os eventos pertencentes a um caso são ordenados e podem ser vistos como uma “execução” do processo. Os logs de eventos podem armazenar informações adicionais sobre eventos. De fato, sempre que possível, as técnicas de mineração de processo usam informações extras, como o recurso (ou seja, pessoa ou dispositivo) que executa ou inicia a atividade, o registro de data e hora do evento ou elementos de dados registrados com o evento (por exemplo, o tamanho de um pedido). 

Assim, a mineração de processos visa descobrir, monitorar e melhorar processos reais extraindo conhecimento dos logs de eventos disponíveis nos sistemas de informações atuais. Ao usar process mining é possível descobrir processos reais, checar sua conformidade, quantificar os desvios, descobrir o que causa a variação dos processos, encontrar gargalos, predizer saídas dos processos, entre outros benefícios. O objetivo dessa área é transformar dados de eventos em insights e ações. Process mining é parte integrante da ciência de dados, estimulada pela disponibilidade de dados e pelo desejo de melhorar os processos. 

As três classificações de Mineração de Processos

A descoberta de processos constrói um modelo a partir de um log de eventos, sem nenhuma informação a priori. Um exemplo disso é o algoritmo alpha

Já as técnicas de conformidade visam analisar a compatibilidade de um log de eventos a um modelo de processo já existente. A verificação de conformidade pode ser usada para verificar se a realidade do modelo condiz com o que foi registrado no log e vice-versa.

Por fim, o aprimoramento melhora automaticamente um modelo de processo de acordo com um log de eventos. Enquanto a conformidade mede o alinhamento entre o modelo e a realidade, esse terceiro tipo de mineração de processo visa alterar ou estender o modelo a priori. 

Em que contexto é aplicado? 

Uma aplicação para mineração de processos é a pesquisa de serviços de saúde. Esse é um campo científico que analisa os workflows e os processos de monitoramento à saúde no que diz respeito à eficiência e eficácia. Um dos seus principais objetivos é o desenvolvimento e implementação de conceitos de assistência médica baseada em evidências. Portanto, esse área busca melhorar a qualidade de atendimentos médicos, considerando que os recursos disponíveis são escassos. Um objetivo importante é a validação de ensaios clínicos na literatura.

No contexto educacional, foi criada uma nova vertente, chamada EPM – Educational Process Mining (Mineração de processos educacionais), que tem como objetivo construir modelos de processos educacionais completos e compactos que sejam capazes de reproduzir todo o comportamento observado. Os resultados da EPM podem ser usados para obter uma melhor compreensão dos processos educacionais subjacentes, gerar recomendações e conselhos para os alunos, fornecer feedback aos alunos, professores e pesquisadores, para detectar precocemente dificuldades de aprendizado. 

Já no contexto de Engenharia de Software, foi definida uma subárea chamada Software Process Mining (Mineração de Processos de Software). Nesta área, as pessoas se concentram na análise de rastreamentos de tempo de execução para melhorar a arquitetura e o desempenho dos sistemas de software, e na análise do comportamento do usuário para melhorar o design e a usabilidade dos sistemas de software. 

Por fim

Em resumo, as técnicas de mineração de processos podem ser aplicadas em qualquer contexto, desde que seja possível transformar os dados de entrada em logs de eventos. Ela se tornou uma ferramenta vital para as organizações modernas que precisam gerenciar seus processos operacionais complexos, e por conta disso, ela se tornou um dos principais pilares da ciência de dados.

 

Referências Bibliográficas 

BOGARÍN, Alejandro et al. Clustering for improving educational process mining. In: Proceedings of the fourth international conference on learning analytics and knowledge. 2014. p. 11-15. 

RUBIN, Vladimir; LOMAZOVA, Irina; AALST, Wil MP van der. Agile development with software process mining. In: Proceedings of the 2014 international conference on software and system process. 2014. p. 70-74. 

VAN DER AALST, Wil. Data science in action. In: Process mining. Springer, Berlin, Heidelberg, 2016. p. 3-23. 

VAN DER AALST, Wil. Process mining: Overview and opportunities. ACM Transactions on Management Information Systems (TMIS), v. 3, n. 2, p. 1-17, 2012. 

VOGELGESANG, Thomas; APPELRATH, H.-Jürgen. Multidimensional process mining: a flexible analysis approach for health services research. In: Proceedings of the Joint EDBT/ICDT 2013 Workshops. 2013. p. 17-22. 

Categorias
Ciência de Dados Dados Destaque

Webinar: Como os modelos epidemiológicos são aplicados ao Covid-19: entendendo casos reais

Diante de um cenário tão complexo quanto o atual, onde grande parte da população se sente desorientada e assustada, é fundamental difundir informações corretas e claras. Por isso, estamos lançando o 1º webinar do Insight Lab: “Como os modelos epidemiológicos são aplicados ao Covid-19: entendendo casos reais”. 

Com transmissão online e gratuita no YouTube, o evento acontecerá nesta quarta-feira (20 de maio), começando às 16h, e contará com cinco especialistas que esclarecerão, através de casos reais observados na pandemia de 2020, os modelos epidemiológicos usados para entender e prever o comportamento do Covid-19 entre as populações. 

Faça parte da conversa!

 

Serviço

Dia: 20 de maio

Horário: 16h

Clique aqui para acessar o webinar e adicionar um lembrete na agenda.

 

Categorias
Dados

“Storytelling com Dados” e a visualização de dados eficiente

“Há uma história em seus dados”. Esse é um dos primeiros pontos que Cole Nussbaumer Knaflic aponta na introdução de seu livro “Storytelling com Dados”. Nesse livro, Knaflic nos ajuda a entender as etapas do processo de apresentação gráfica das informações.

A autora nos convoca a refletir sobre o que significa a organização dos dados em gráficos, qual história está sendo sintetizada. Ela também explica a necessidade de entender a quem essas informações visuais serão apresentadas, e dentro de qual contexto. Cole insiste na necessidade da clareza dos gráficos; a visualização dos dados é o ponto onde as informações devem estar mais sistematizadas, não podem se tornar um enigma para quem as observa.

O manual, também podemos chamar assim, é divido em seis capítulos:

  1. Entenda o contexto. 
  2. Escolha uma apresentação visual adequada. 
  3. Elimine a saturação. 
  4. Foque a atenção onde você deseja. 
  5. Pense como um designer. 
  6. Conte uma história. 

Nesses capítulos a autora nos mostra seu processo de concepção dos elementos para a visualização de dados. E vamos encontrar muitos exemplos de antes e depois, ou seja, exemplos de gráficos que não transmitem corretamente a mensagem e uma versão alternativa onde a informação foi apresentada de forma clara e eficiente.

Muitas pessoas vão pensar: “esse livro foi feito para mim”. Isso porque “Storytelling com Dados”, usando as palavras da autora, é voltado “para qualquer pessoa que precise comunicar qualquer coisa a qualquer um usando dados”.

Vai ler “Storytelling com Dados”? Então observe se você está adquirindo a versão colorida, existe uma edição em português que é em preto e branco, as informações gráficas são muito mais potentes na versão em cores.

Categorias
Ciência de Dados Dados Python

12 bibliotecas do Python para análise de dados espaço-temporais (Parte 1)

Dados espaço-temporais envolvem a união de duas áreas: séries temporais e Geoestatística. Com esses dados você observa o evento por duas frentes: do ponto de vista temporal e a partir do local em que isso acontece.

Uma linha de pesquisa desenvolvida aqui no Insight Lab é a análise de dados espaço-temporais. Nossos pesquisadores, Nicksson Arrais, Francisco Carlos Júnior e João Castelo Branco,  prepararam uma seleção com opções de bibliotecas para trabalhar com dados espaço-temporais no ambiente Python.

Acompanhe a primeira parte dessa lista:

1. GeoPandas

É um projeto open source para facilitar o trabalho com dados geoespaciais em Python. GeoPandas estende os tipos de dados do pandas fornecendo operações espaciais em tipos geométricos. O GeoPandas combina as capacidades do Pandas e da biblioteca Shapely, fornecendo operações geoespaciais do Pandas e uma interface de alto nível para múltiplas geometrias do Shapely. Ele permite que você faça facilmente operações em Python que de outra forma exigiria um banco de dados espacial como o PostGIS.

 

2. PySAL

É uma biblioteca multiplataforma de código aberto para ciência de dados geoespaciais, com ênfase em dados vetoriais geoespaciais escritos em Python. PySAL suporta o desenvolvimento de aplicações de alto nível para análise espacial, como a detecção de clusters espaciais e hot-spots, construção de outliers de gráficos de regressão de dados espaciais e modelagem estatística em redes geograficamente incorporados econometria espacial exploratória e análise de dados espaço-temporais. Os analistas espaciais que possam estar a realizar projetos de investigação que exijam um scripting personalizado, uma análise de simulação extensiva, ou aqueles que procuram fazer avançar o estado da arte na análise espacial devem também considerar o PySAL como uma base útil para o seu trabalho.

 

3. PyMove

É uma biblioteca de código aberto para análises de trajetória, desenvolvida pelo Insight Lab, que envolve tanto as visualizações de trajetórias, pontos de interesses e eventos, quanto o processamento de dados sobre múltiplas trajetórias de forma eficiente. O PyMove fornece ao usuário um ambiente único de análise e visualizações de dados de trajetória, sendo bastante fácil de usar, extensível e ágil.

 

4. Scikit-Mobility

É uma biblioteca para simulação e análise da mobilidade humana em Python. A biblioteca permite: gerir e manipular dados de mobilidade de vários formatos (registos de detalhes de chamadas, dados GPS, dados de redes sociais baseadas na localização, dados de inquéritos, etc.); extrair métricas e padrões de mobilidade humana de dados, tanto a nível individual como colectivo (por exemplo, comprimento dos deslocamentos, distância característica, matriz origem-destino, etc.). O Scikit-Mobility conta com diversos modelos para simular trajetórias e métricas para comparação de trajetórias como raio de rotação, motivos diários, entropia de mobilidade, matrizes origem-destino, além de uma implementação simples e eficiente baseada nas bibliotecas populares como Python NumPy, Pandas e Geopandas 

Confira também este artigo sobre o Scikit-Mobility:

Scikit-Mobility: an open-source Python library for human mobility analysis and simulation

 

5. Moving Pandas

É uma extensão da biblioteca Pandas e sua extensão espacial GeoPandas para adicionar funcionalidade quando se lida com dados de trajetória. No Moving Pandas, uma trajetória é uma série de geometrias ordenadas pelo tempo. Essas geometrias e atributos associados são armazenados em um GeoDataFrame, uma estrutura de dados fornecida pela biblioteca de GeoPandas. A principal vantagem do Moving Pandas é que, sendo baseado no GeoPandas, ele permite que o usuário execute várias operações em trajetórias, como recortá-las com polígonos e computar interseções com polígonos. No entanto, por estar focado no conceito de trajetória, o Moving Pandas não implementa nenhuma característica específica da análise de mobilidade, como leis estatísticas de mobilidade, modelos generativos, funções padrão de pré-processamento e métodos para avaliar o risco de privacidade em dados de mobilidade.

 

6. Shapely

Uma das principais bibliotecas em Python para manipulação e análise de objetos geométricos planares. Devido à sua construção ser baseada na biblioteca GEOS (mesma engine do PostGIS), a biblioteca Shapely possui as principais funções para operações de objetos geométricos. A partir das estruturas de dados principais de ponto, linha e polígonos você conseguirá visualizar objetos geométricas e realizar facilmente operações simples como: interseção e união. E também operações mais complexas como convex hull e construção de estrutura com múltiplos objetos geométricos. Para trabalhar com dados georreferenciados em Python, a nossa dica é que Shapely seja umas das primeiras bibliotecas estudadas.

Continue acompanhando nossas publicações. Em breve postaremos a segunda parte desta lista com mais 6 bibliotecas. Até logo!

Categorias
Ciência de Dados Dados Governo

Os 12 principais casos de uso de ciência de dados no governo

Introdução

A análise de big data foi aplicada a diferentes esferas da vida humana. Um dos melhores recursos da análise de dados é sua adaptabilidade e amplo espectro de aplicativos. Percorremos toda a série de artigos sobre aplicação de ciência de dados em várias esferas que estão comprovando essa afirmação. Vamos considerar os casos de uso da ciência de dados para a atividade do governo.

Sob condições de rápido desenvolvimento de tecnologias e sociedades, os governos precisam resolver tarefas complexas e gerenciar vários procedimentos simultaneamente. Os governos enfrentam a necessidade de plataformas inteligentes capazes de coletar, limpar, filtrar e analisar grandes quantidades de dados. Governos locais, agências federais e departamentos usam ferramentas orientadas a dados para otimizar seu trabalho e melhorar os assuntos de segurança, setor público, direito, defesa, etc.

Vamos examinar mais de perto e esclarecer como os governos usam a ciência de dados e quais benefícios ela pode trazer.

Detecção de fraude

Todos os anos, transações fraudulentas causam perdas financeiras significativas para os governos. A fraude se tornou uma coisa comum. Esse fato pode parecer marcante para você, mas vamos dar uma olhada. Todas as operações que são mais ou menos relacionadas ao dinheiro apresentam interesse para possíveis fraudadores.

A principal característica da fraude no nível governamental é que as consequências, em certa medida, afetarão cada cidadão.

Para mitigar os riscos de fraude e ameaças subsequentes, os governos aplicam soluções de dados inteligentes e análise de dados.

Evasão fiscal

A sonegação de impostos pressupõe as ações tomadas pelos indivíduos ou empresas para deturpar os negócios reais com as autoridades fiscais. Desonestidade nos relatórios fiscais, como declarar menos renda, ajuda a reduzir a responsabilidade tributária. Em outras palavras, pessoas ou empresas mostram menos dinheiro com o objetivo de pagar menos dinheiro ao Estado. Imagine a quantidade de dados que devem ser processados ​​e analisados ​​para encontrar um evasor. Isso está realmente além da competência humana.

Felizmente, plataformas e soluções analíticas modernas são capazes de detectar sonegação de impostos. Os algoritmos analíticos usados ​​para esse fim baseiam-se não apenas nos dados financeiros, mas também nas informações de mídia social. Os algoritmos analisam cuidadosamente os dados e combinam os padrões dos gastadores com os rendimentos declarados. Assim, aqueles que gastam muito mais do que gastam são facilmente detectados.

Empresas não registradas

O grupo de firmas canceladas de registro abrange as empresas que não estão mais registradas no registro, desistiram de negociar e não estão sujeitas a obrigações legais e tributação. No entanto, essas empresas podem ser facilmente trazidas de volta à vida em caso de necessidade.

Esse fato fornece um vasto campo para atividades fraudulentas. Muitas vezes, as empresas não estão mais no registro, mas continuam sua operação e, finalmente, obtêm renda.

Algoritmos analíticos e soluções baseadas em IA estão ajudando os governos a esse respeito. Os algoritmos rastreiam a atividade mesmo para as empresas que parecem inativas e alarmadas em caso de ações suspeitas tomadas. Os algoritmos detectam a aparência do nome da empresa ou outras informações entre os dados financeiros. A divulgação das firmas canceladas de registro ajuda o estado a minimizar e até impedir a evasão ilegal do pagamento de impostos.

Defesa

Questões de defesa são cruciais para todos os estados do mundo. Todos os anos, governos de todo o mundo gastam bilhões de dólares em defesa.

Uma parte significativa desse dinheiro é gasta na introdução de big data, algoritmos de aprendizado de máquina e soluções baseadas em IA para melhorar o desempenho de vários departamentos e instituições militares. Fortalecidas pelas soluções de dados inteligentes, essas instituições podem melhorar o processo de tomada de decisão e reduzir o tempo gasto na solução de um assunto específico.

No campo da defesa, a importância do big data é enorme. Com a introdução da análise em tempo real, os estados tiveram a oportunidade de assistir, rastrear e monitorar as fronteiras, criar vários fluxos de vídeo a partir de vários objetos estrategicamente importantes e observar os espaços aéreo e marinho. As soluções inteligentes são mais atentas, precisas e confiáveis ​​em seus resultados de monitoramento. A análise preditiva parece ser um fator de mudança de jogo na logística de defesa e na prevenção de possíveis ameaças. Os algoritmos criam cenários possíveis calculando possíveis ameaças ou danos.

Atividade terrorista

Nas últimas décadas, fomos testemunhas de vários incidentes terroristas em todo o mundo. Essas questões precisam ser tomadas medidas severas, pois a segurança e o bem-estar das pessoas estão ameaçados.

O terrorismo se tornou um tipo de negócio para alguns grupos de pessoas. As organizações terroristas até recrutam jovens através de plataformas de mídia social.

A análise de big data, algoritmos de aprendizado de máquina e mineração de texto são amplamente aplicados para detectar essa atividade. Grandes quantidades de dados sobre o potencial comportamento terrorista são coletadas e cuidadosamente processadas. Esses dados incluem conversas incomuns, textos, interação e contatos, compras ou movimentos em locais potencialmente perigosos etc. As agências de segurança estão trabalhando na detecção em tempo real de padrões de dados e vinculando esses padrões aos sistemas. Essas soluções de dados inteligentes examinam todos os dados disponíveis e relatórios de formulário sobre indivíduos ou grupos possivelmente perigosos, levando em consideração os dados referentes a casos anteriores de extremismo, crime ou terrorismo.

Sensibilização para o crime nas ruas

O uso de invenções e bancos de dados modernos pelas autoridades estaduais mudou toda a imagem do mundo do crime. Impressões digitais, amostras de DNA e análises balísticas abriram novas oportunidades para quem investiga crimes e se esforça para impedir que eles aconteçam.

Os departamentos de polícia de todo o mundo utilizam big data para prever o mapeamento de crimes. Esses sistemas usam dados anteriores sobre tipo de crime, localização, data e hora para criar os pontos críticos. Os mapas com os pontos ativos provam ser muito mais eficientes do que pura adivinhação.

Além disso, os sistemas de cidades inteligentes permitem o monitoramento de vários locais sob condições de transmissão em tempo real. Câmeras e detectores de movimentos altamente sensíveis detectam ações suspeitas e enviam alarmes à polícia.

Ataques cibernéticos

No mundo das tecnologias digitais, a cibersegurança se tornou uma questão do nível governamental. Coletamos e analisamos a grande quantidade de dados para revelar suas informações valiosas. Mas os resultados de nosso cuidadoso processamento e análise podem se tornar interessantes para alguém que deseja usá-lo para um objetivo específico. Além disso, essas pessoas planejam levar os dados ilegalmente por roubo ou ataque de hackers.

Imagine a quantidade e a importância dos dados possuídos pelas instituições governamentais. Caso esses dados se tornem disponíveis ao público ou, pelo menos, a indivíduos particulares, ou se os dados desaparecerem, as consequências podem ser perturbadoras. Portanto, análises de big data e ferramentas específicas de aprendizado de máquina são usadas para monitorar e examinar cuidadosamente todas as operações que envolvem dados valiosos para revelar tendências e padrões nessas ações. Os sistemas monitoram os usuários e dispositivos na rede e sinalizam indivíduos ou ações suspeitas. Ele permite que o estado tome medidas mais operacionais, confiáveis ​​e seguras para evitar ataques cibernéticos.

Vigilância mais inteligente

Câmeras de vigilância são usadas cada vez mais extensivamente. Essas câmeras já provaram sua eficiência em objetos menores. Agora eles estão caminhando para as ruas e cantos mais escuros e menores das cidades e vilas.

As câmeras de vigilância não estão apenas gravando os vídeos. Hoje, suas capacidades se ampliam. Por exemplo, agora eles podem reconhecer violência ou atividade criminosa e distinguir brigas ou abusos físicos de outras ações e movimentos depois que o sistema de reconhecimento inteligente envia a mensagem à polícia.

Além disso, algoritmos semelhantes são usados ​​para reconhecer quedas traumáticas ou outras lesões e podem informar sobre a emergência. Isso prova ser muito útil para idosos e pessoas que sofrem de doenças crônicas graves.

Segurança nacional

Como a interação de pessoas e dados se torna mais intensa a cada dia, a idéia de usar big data para o benefício da sociedade parece cada vez mais atraente. Os dados se tornam uma fonte mais confiável, apresentando grande valor para o estado. Assim, e se tornar uma questão de segurança nacional.

Sem dúvida, a análise de big data suporta a segurança nacional e traz oportunidades para diferentes áreas. Entre eles estão a detecção de anomalias, mineração de associação para divulgação dos padrões e interconexão entre os conjuntos de dados, classificação e agrupamento de dados. Além disso, pode ser usado para análise de links e divulgação de mensagens ocultas dos textos ou documentos. Assim, torna visível para as pessoas as informações, relações e padrões que as pessoas podem ignorar. Em combinação com julgamentos humanos, a análise de big data ajuda na tomada de decisões.

Aplicação da lei

A análise de big data pode fazer a diferença na aplicação da lei. As agências policiais podem obter resultados significativos no trabalho, tendo em mãos os enormes bancos de dados cheios de dados referentes a chapas de matrícula, identidades criminais, estatísticas criminais e acesso a plataformas de mídia social.

Com a ajuda de modernas ferramentas de análise, as agências policiais podem transformar os dados disponíveis em inteligência acionável. Assim, o fenômeno do policiamento preditivo aparece. Isso significa que a análise de big data permite impedir a ocorrência de crimes. Atualmente, o policiamento preditivo está em ascensão, apesar de todas as disputas e argumentos contra ele.

Saúde e Serviços Humanos

As agências estatais que trabalham com ou controlam serviços de saúde e humanos usam a análise de big data com a mesma eficiência que outras autoridades governamentais. Não analisar os dados disponíveis nessa área seria uma perda significativa.

A prestação de serviços de alta qualidade aos cidadãos é a tarefa prioritária do governo. Portanto, as atividades das agências de saúde e serviços humanos (HHS) são regulamentadas pelo estado. As agências de HHS trabalham duro para fornecer transparência em suas operações e satisfazer todas as necessidades de seus clientes. A aplicação da análise em tempo real capacita os funcionários a coletar, processar, analisar e visualizar dados e obter uma visão real dos serviços que prestam e do nível de satisfação de seus clientes. É muito mais fácil tirar conclusões e identificar os assuntos para melhorias adicionais, com base nos resultados de análises precisas.

Resposta de emergência

A capacidade de incorporar dados de várias fontes oferece uma vantagem significativa para governos e autoridades locais em condições de emergência. A análise em tempo real ajuda a tomar decisões imediatas em situações estressantes. O controle sobre vários canais de comunicação e o uso de ferramentas inteligentes que reconhecem possíveis ameaças e enviam alarmes permitem às autoridades locais avisar os cidadãos e aconselhá-los sobre ações adicionais.

Conclusão

Levando em consideração todas as instâncias mencionadas em nossos principais casos de uso de ciência de dados no governo, é bastante evidente que as vantagens são numerosas. Eles estão começando com a redução do tempo para resolver um único problema e terminando com a capacidade de evitar casos desastrosos. Tudo isso cai sob a competência da ciência de dados e seu uso inteligente. O leque de possibilidades é vasto.

O big data melhora o setor governamental. Os cidadãos comuns sentem resultados práticos dessas mudanças em suas vidas diárias e serviços prestados pelo Estado. Esperamos que ainda mais mudanças positivas ainda estejam por vir e tragam mudanças positivas para os estados em todo o mundo.

Sair da versão mobile