머신러닝을 이용한 뉴스 감정 분석을 프로젝트로 진행하고 있다.
사람의 감정을 기계가 판단한다???
아주 멋진 일이다.
그런데 여기서 집고 넘어가야 할 것이 있다.
지금 우리가 할려고 하는 건 뉴스이다.
뉴스를 보고 그 뉴스에 대해 긍정,부정,중립을 판단하는 것이다.
뉴스는?
자고로 중립성을 가져야 하는 것이 아닌가????
그리고 뉴스는 개인의 상황에 따라서 단순 사실을 전달하더라도 해당 뉴스가 긍정이 될 수도 있고 부정이 될 수도 있다.
답답해지기 시작한다.
기획의도를 모르겠다.
많은 의문점을 가지고 이야기 하기는 했지만... 결국은 구현하는 걸로..
결정이 되었다
우선 학습을 위한 데이터가 필요했다.
아르바이트 생을 12명 고용했다.
각종 뉴스를 랜덤하게 제공하고 긍정,부정,중립을 판단하게 했다.
예상대로 받은 데이터는 엉망이었다.
낙태에 관한 기사가 있었는데 한 분은 긍정이라고 표시 하셨고 한분은 부정이라고 표현하셨다. 개인적으로 해당 기사는 중립이라고 생각이 들었다.
정치 분야 뉴스는 예상대로 더 개판이었다. 뒷말은 생략 한다...
그래도 돈을 써서 아르바이트를 썼으니 결과는 나와야 한다.
상세 가이드를 아르바이트생에게 제공하지 못한 나의 잘못이 크다. 정말 크다.
그렇게 자책하며..
나온 학습 데이터를 가지고
학습을 시킨다. 결과는 엉망이다.
학습 데이터를 다시 수정한다. 사용 할 수 없는 데이터(하나의 기사에 다른 의견이 달린경우
)는 과감히 버린다.
이것 저것 오류인 데이터도 버린다.
결국 남는 건 전체의 20~30%정도의 데이터??? 그나마 또 나의 기준에 맞게 수정한다.
뉴스가 긍정인지 부정인지 판단한는 기준이 명확하지 않다 보니 학습 결과도 엉망이다.
그리고 이렇게 감정 분석을 통해 나오는 결과 도대체 왜? So What?
데이터 전처리 전처리 전처리 전처리 전처리 전처리 전처리...
끝이 없는 소용돌이...
마감 기간은 다가온다. 어떻게든 왜 이것을 하는지 의문이 들기 시작하면서..
진도는 나가지 않는다. 코딩도 하기 싫다.
결국은 어찌 구현 되었지만
이제 평가를 하자고 한다.
임의의 데이터를 가지고 와서 만들어진 모델에 넣어 긍부정을 판단한다.
그리고 평가하는 사람이 기사를 가지고 긍부정을 판단한다.
????
저기 잠깐 뭔가 이상하다. 평가자의 성향이... 좀 특이하다...
자기 생각에는 이 기사는 부정, 이 기사는 긍정,...
틀렸다고 한다.
결국 뉴스 감정 분석은 그 평가자 기준으로는 꽝 인 시스템이다.
사람의 성향은 다른 게 당연 한 건데...
표본 수도 많지 않은 학습 데이터를 가지고 일반적인 적용을 바라고
개인 맞춤형을 바란다?
결국은 이런 식으로 만들어 놓고
우리는 뉴스 감정 분석이 가능합니다 여러분~~~
이렇게 홍보 하겠지...
'프로그래밍 > 기타' 카테고리의 다른 글
쿠버네티스 필요없는 replicaset 일괄로 지우기 (3) | 2024.10.22 |
---|---|
OpenAI의 Whisper (0) | 2024.01.12 |
AWS EC2 Linux2, Linux2023 에 java 설치 (0) | 2023.06.19 |
좌표계 변환 Proj4 (6) | 2018.11.15 |
인텔리지로 MAVEN Project 생성 시 archtype list가 로딩이 안될 때 (0) | 2018.11.15 |