본문 바로가기

나이브베이즈2

머신러닝 분류 - 사이킷런을 활용한 나이브 베이즈 분류 사이킷런을 활용한 나이브 베이즈 분류 이전 실습에서는 메일 내에서 스팸 및 정상 메일을 분류할 때, X = ‘확인’ 키워드 유무(O or X) Y = 메일 결과 (스팸 or 정상) 로, 입력값 X의 개수가 1개였습니다. 하지만, 만약 이메일에서 ‘확인’ 키워드 말고도 ‘.exe 첨부파일’을 보냈는지, 안보냈는지 혹은 메일 제목에 대괄호가 쓰였는지/안쓰였는지 등의 다양한 입력값이 추가되어 스팸메일을 분류한다면, 문제가 좀 더 복잡해 질 것 같습니다. 이러한 복잡한 문제 해결을 위하여 사이킷런에는 나이브 베이즈 분류 모델을 구현하여, 모듈 호출을 통해 간단히 나이브 베이즈 분류를 사용할 수 있도록 하였습니다. 이번 실습에서는 Wine 데이터를 활용하여 나이브 베이즈 분류 방법 중 하나인 가우시안 나이브 베이.. 2022. 5. 24.
머신러닝 분류 - 나이브 베이즈 분류 베이즈 정리로 나이브 베이즈 분류 구현하기 나이브 베이즈 분류는 데이터의 확률적 속성을 가지고 클래스를 판단하는, 꽤 높은 성능을 가지는 머신러닝 알고리즘입니다. 이를 이해하기 위해서 Bayes’ Theorem에 친숙해 질 필요가 있습니다. 간단한 나이브 베이즈 분류 구현을 통해 베이즈 정리에 대해 이해해보도록 하겠습니다. data set 내에서 X와 Y의 빈도수를 활용하여 연산에 필요한 각각의 확률값을 계산 할 수 있습니다. 엘리스의 이메일을 한 번 들여다 보면서 Bayes’ theorem을 이해해 볼까요? 엘리스의 이메일은 다음과 같은 텍스트 목록을 가지고 있습니다. 타입텍스트 Spam “(광고) XXX 지금 확인 해보세요.” 첨부파일 : exe Ham “[긴급]엘리스님, 확인 부탁드립니다.” 첨부파.. 2022. 5. 24.