T E R R A
Rodolfo
T E R R A
Rodolfo
Cientista de Dado - Analista de Informações - Economista
Cientista de Dado - Analista de Informações - Economista
Prevenção de Ocorrência de Câncer de Mama
Definição do Problema de Negócio
Revisão de ocorrência de câncer de nama.
Desenvolvimento de um modelo ML que prevê o tipo de câncer do paciente: Benigno ou maligno, analisando os exames médicos.
Para o desenvolvimento do modelo ML foi observado o conjunto de dados,com 569 pacientes com câncer, sendo de dois tipos: Benigno e Maligno, chamado de coluna target ou o que queremos prever e também os resultados de 31 tipos de exames, chamado de variáveis.
O conjunto de dados foi pego no link abaixo, dados públicos para a utilização:
http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29
1. Coletando os Dados
2. Pré-Porcessamento
3. Treinando o modelo knn
3.1. Avaliando o modelo 1 - knn
3.2. Interpretando os resultados do modelo 1 - knn
3.3. Otimizando a Performance - modelo 2 - knn
3.4. Interpretando os resultados do modelo 2 - knn
4. Construindo um modelo com algoritmo Support Vector Machine(svm) - modelo 3
4.1. Avaliando o modelo 3 - svm
4.2. Interpretando os resultados do modelo 3 - svm
5. Construindo o modelo 4 - Random Forest
5.1. Interpretando os resultados do modelo 4 - Random Forest
6. Conclusão
7. Repositório GitHub
conforme podemos observar realizamos 04 modelos de Classificação de prevenção do tipo de câncer:
O Modelo 1 (KNN), obtivemos uma acurácia de 98%.
O segundo modelo foi realizado uma tentativa de otimização do primeiro modelo, porém não tendo sucesso com a utilização do mesmo algoritmos, atingindo um índice de acurácia menor, de 95%.
Ao tentar realizar a otimização do modelo percebemos que chegamos na limite de acurácia do algoritmo knn. Continuando o modelo decidimos tentar mudar o algoritmo para ver que conseguimos atingir um índice mais satisfatório.
O terceiro modelo, utilizamos o Algoritmo SVM (Support Vector Machine) e conseguindo um aumento na acurácia, 99,11% para o modelo de treino.
O quarto e último modelo utilizamos o algoritmo Random Forest, porém com uma acurácia menos de 94,11%.
Em relação aos 04 modelos acima representados o terceiro modelo (modelo com a utilização do algoritmo SVM) foi o mais satisfatório para ser apresentado como a solução do problema de negócio.