top of page

Prevenção de Ocorrência de Câncer de Mama

Definição do Problema de Negócio

 

Revisão de ocorrência de câncer de nama.
Desenvolvimento de um modelo ML que prevê o tipo de câncer do paciente: Benigno ou maligno, analisando os exames médicos.

Para o desenvolvimento do modelo ML foi observado o conjunto de dados,com 569 pacientes com câncer, sendo de dois tipos: Benigno e Maligno, chamado de coluna target ou o que queremos prever e também os resultados de 31 tipos de exames, chamado de variáveis.
O conjunto de dados foi pego no link abaixo, dados públicos para a utilização:
http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29

1. Coletando os Dados 

2. Pré-Porcessamento

3. Treinando o modelo knn

3.1. Avaliando o modelo 1 - knn

3.2. Interpretando os resultados do modelo 1 - knn

3.3. Otimizando a Performance - modelo 2 - knn

3.4. Interpretando os resultados do modelo 2 - knn

4. Construindo um modelo com algoritmo Support Vector Machine(svm) - modelo 3

4.1. Avaliando o modelo 3 - svm

4.2. Interpretando os resultados do modelo 3 - svm

5. Construindo o modelo 4 - Random Forest

5.1. Interpretando os resultados do modelo 4 - Random Forest

6. Conclusão

7. Repositório GitHub

Âncora 1
Âncora 2
Âncora 3
Âncora 4
Âncora 5
Âncora 6
Âncora 7
Âncora 8
Âncora 9
Âncora 10

conforme podemos observar realizamos 04 modelos de Classificação de prevenção do tipo de câncer:
O Modelo 1 (KNN), obtivemos uma acurácia de 98%.

O segundo modelo foi realizado uma tentativa de otimização do primeiro modelo, porém não tendo sucesso com a utilização do mesmo algoritmos, atingindo um índice de acurácia menor, de 95%.

Ao tentar realizar a otimização do modelo percebemos que chegamos na limite de acurácia do algoritmo knn. Continuando o modelo decidimos tentar mudar o algoritmo para ver que conseguimos atingir um índice mais satisfatório. 

  
O terceiro modelo, utilizamos o Algoritmo SVM (Support Vector Machine) e conseguindo um aumento na acurácia, 99,11% para o modelo de treino.

O quarto e último modelo utilizamos o algoritmo Random Forest, porém com uma acurácia menos de 94,11%. 

Em relação aos 04 modelos acima representados o terceiro modelo (modelo com a utilização do algoritmo SVM) foi o mais satisfatório para ser apresentado como a solução do problema de negócio.

Âncora 11
Âncora 12
Âncora 13
bottom of page