본문 바로가기

Intern(AllBigDat)6

[NLP] Count Vectorizer 사용법 CountVectorizer sklearn에서 제공하는 텍스트 마이닝 툴이다. 해당 툴을 통해 할 수 있는 것은 다음과 같다. 1. 주어진 단어들을 빈도수 기반으로 하여 (희소)행렬로 만들어준다. 2. Vocabulary 또한 추출해준다. 예시는 아래와 같다 from sklearn.feature_extraction.text import CountVectorizer corpus = [ "철수는 통계학과에 다닌다. 아 아이구", "빅데이터 분석에 필요한 것은 통계학적 지식과 프로그래밍 능력이다.", "4차산업의 핵심기술로 인공지능과 빅데이터가 있다.", "텍스트자료는 빅데이터에서 중요한 재료이다." ] #단어들의 빈도수 기반으로 행렬을 만들어줌, vocab구축도 가능, 영어의 경우 소문자로 다 변환하여 인식.. 2021. 7. 13.
[NLP]빠르게 불용어 제거하기 불용어 제거 corpus 안의 텍스트들이 짧다면, 리스트에서 for 문을 돌리고, 불용어 저장 리스트에서도 for문을 돌려서 비교하면 된다. 그러나 만약, corpus안에 대량의 문서가 존재하여 for문을 두 번 돌리기 부담스러울 경우, 어떻게 할 수 있을까? 정답은, Ordered Set을 활용하는 것이다. 일반적인 Set은 순서가 보장되지 않기 때문에, set 끼리의 연산이 매우 빠름에도 불구하고, 순서를 고려하는 모델에 사용할 때는 불편하다(W2V, D2V..). Ordered Set을 사용하면 그런 불편함이 사라지게 된다 예시 코드는 다음과 같다. from ordered_set import OrderedSet corpus = [ "철수는 통계학과에 다닌다. 아 아이구", "빅데이터 분석에 필요한 .. 2021. 7. 13.
VS code 글자 수 맞추기 VSCode 내장 Ruler vscode에서 글자 수를 맞추기 위한 Ruler 설정을 제공해준다. 설정 방법은 다음과 같다. Settings 들어가기 좌측 하단의 톱니바퀴 모양을 누르고, Settings로 들어간다. 검색창에서 Ruler 검색 후 Edit in settings.json 누르기 검색창에 ruler 라고 검색하면 아래 화면이 뜬다. 그러면 Editor: Rulers 하단의 Edit in settings.json을 눌러준다. 원하는 max length 수 입력 아래의 그림과 같이 나올텐데, 여기에 99, 80 등 원하는 숫자를 써준다. 저장하면 오른쪽에 흰색 세로 줄이 그려져 있을텐데 그 줄이 제한선임을 알려준다. 2021. 6. 25.
Chrome Webdriver Manager Chrome Webdriver Manager 크롤링을 할 때, chromewebdriver.exe 등을 설치해서 이 드라이버를 구동시키는 방식으로 창을 띄우곤 한다. 그런데, 크롤링 하는 코드를 서로 공유할 때 (혹은 배포할 때), 누구의 컴퓨터, Window, MacOS든(Ubuntu는 모르겠다) webdriver을 구동하게 할 수 있다. 바로 webdriver_manager.chrome 패키지의 chrome driver manager이다. 인턴을 하는데, 내가 받은 크롤러 파일이 윈도우에서 작성된 것이어서 어떻게 내 환경인 Mac 으로 바꿀까 고민하는데, 옆자리 인턴분이 친절하게 미리 알려주셨다. 아래와 같이 작성해주면 driver 정의가(아마 바로 설치해주는 듯 하다) 되면서 크롬 창이 뜨게 된다... 2021. 6. 23.