본문 바로가기

프로젝트

심심해서 도전해보는 1~ 5월 조아라 인기 로맨스판타지 웹소설 제목/소개글 단어 사용 빈도 탐색(4) - 소개글 데이터 수집 및 월간 분류

시험이 끝났지만 몰아치는 프로젝트로 사람이 죽어가고 있습니다

거짓말 아니고 너무 힘듬. 

그와중에 팀플 진짜 너무 답도없게 흘러가서.....

내가 여기서 더 스트레스 받으면 쓰러질 각이야 진짜로 나 너무 힘들어.

그래서 이거나 다시 해서 힘을 얻어보자! 로 다시 시작함


<결과>

1~4월에 투데이베스트에 가장 자주 올라온 소설 10

<코드>

코드가 나날이 길어지고 있어서 그냥 깃허브 링크로 올림

https://github.com/world970511/TEST-SOLO-/tree/master/joara

 

world970511/TEST-SOLO-

그냥 공부 겸 해보고 싶은 거 해보기. Contribute to world970511/TEST-SOLO- development by creating an account on GitHub.

github.com

 

 

<수정사항>

*아무래도 여러가지 하다보니 애 데이터가 너무 뒤떨어진 것 같아서 1-5월 데이터로 변경. (현 시점 5/14으로 일단 데이터 수집 완료) 6월 초 완성 목표

* 머신러닝 배운 김에 키워드 트랜드 예측 모델 제작하기로 최종 목표 변경. 인공지능 프로젝트 하면서 응용해보기.         - 제목/ 소개글/ 커뮤 언급량(ex조아라 소설 추천)등등 종합적인 데이터에서 언급/사용빈도 증가량을 통해 최근 올라오는 소설 중 트랜드가 될 만한 키워드 예측하기. 커뮤는 비회원일 경우 확인을 못하기 때문에... 일단 가능한 최선을 다해 뽑아는 보겠지만 모르겠다. 안되면 포기합시다

*결국 안뽑히는 것은 ""으로 처리.  방법을 못 찾겠는걸...뭐.  그리고 '미계약작','표지' 등 내용과 상관없는 단어 제거(추가적으로 제거 더 하긴 해야 할 듯)

*각 월마다 투베에  자주 오른 소설 10개 뽑는 코드 추가,  각 월마다 제목/소개글에 사용된 단어 중 사용빈도가 높은 어절 50개 선택

*코모란에서 okt로 변경 

*도망여주, 다정남 이런 것은 명사+명사로 인식해서 출력 시 도망/여주, 다정/남 이렇게 읽는 거 같아서 결국 어절로 변경.

 

<추가수정목표>

*코드 너무 더러워서 좀 더 깨끗하게 변경하기

*정확도 높이기. 지금 필요없는 것도 다 출력됨

*실행시간 줄이기.인간적으로 시간 너무 걸림. 실행시간 고려 안하고 일단 짜본 거긴 하지만 너무 답이 없다.

*오류들 수정하기. 오류  너무 많이 나...근데 지금 너무 귀찮으니 다음에

*필요 없는 단어 빼려고 넣은 코드가 작동안함 모듈로 변환시켜야 할 듯

 


<참고>

https://mr-doosun.tistory.com/22

 

[NLP] KoNLPy 이용하여 한국어 토큰화, 형태소 분석하기 및 클래스간품사 태그 비교표 [한국어 자연

[ 자연어처리 ] 해당 자료를 참고하여 작성하였습니다 http://konlpy.org/ko/v0.4.3/morph/ KoNLPy패키지에는 Hannanum, Kkma, Komoran, Mecab, Okt(Twitter)등의 클래스들이 있습니다 이번 포스팅은 클래스들간..

mr-doosun.tistory.com

https://workingwithpython.com/howtohandlemissingvaluewithpython/

 

pandas로 결측치(결측값) 확인하기, 삭제하기, 대체하기(info, dropna, fillna)

현업에서 고객데이터를 다루다 보면 결측치(Missing Value)는 계속적으로 등장하게 됩니다. 이번 포스팅에서는 파이썬에서 결측치를 어떻게 다뤄야 하는지 살펴보도록 하겠습니다. 강의를 위 코로

workingwithpython.com