본문 바로가기

닐라의 학습로그/데이터분석 학습로그6

[NLP] 텍스트 전처리 (Text Preprocessing) 안녕하세요! 지난 포스팅에서 자연어 처리의 4단계에 대해 다루었는데요, (관련 내용은 아래의 포스팅을 참고하시면 됩니다.) [NLP] 자연어 분석의 4단계 및 기계학습에의 적용 방식 본 포스팅에서는 자연어 처리에 앞서 자연어 처리의 개념과 그 분석 단계, 및 기계 학습에의 적용 방식에 대해 설명하였습니다. 자연어 처리는 인공지능 분야로부터 파생된 영역으로, 인공지능 marketingscribbler.tistory.com 오늘은 자연어 처리 기법이 잘 적용될 수 있도록, 용도에 맞게 텍스트를 사전에 처리하는 텍스트 전처리에 대해 다루도록 하겠습니다. 목차 일단 텍스트에 대한 전처리는 크게 텍스트를 토큰으로 나누는 과정과 불필요한 토큰을 제거하는 과정, 그리고 그 이후에 코딩을 좀 더 편하게 하기 위한 원-.. 2021. 6. 11.
[R] 아이패드에서 R studio 사용하기 (feat. AWS) 보통 데이터 분석을 위한 툴로 python, r과 같은 언어들이 많이 사용됩니다. 파이썬(python)의 경우 Carnets, JUNO와 같은 IDE형, 또는 notebook형 어플들이 앱스토어에 등록되어 있는 반면, Rstudio의 경우 태블릿 상에서 작업할 수 있는 모바일 어플리케이션이 잘 구축되어 있지 않습니다. 데이터를 분석하거나 마크다운 문서를 작성할 때 R studio를 많이 사용하는 편인데, 물론 사양 괜찮은 노트북을 가지고 다니는 것이 베스트겠지만, 간단한 분석정도는 굳이 노트북을 들고다니지 않고 iPad로 하고 싶어 방법을 알아보던 중 Rstudio가 Web상에서 접근 가능한 서버 형태로 배포되고 있다는 것을 알게되어 이를 통해 iPad에서 Rstudio를 이용하는 방법을 공유해보고자 합.. 2021. 6. 3.
[NLP] 자연어 분석의 4단계 및 기계학습에의 적용 방식 본 포스팅에서는 자연어 처리에 앞서 자연어 처리의 개념과 그 분석 단계, 및 기계 학습에의 적용 방식에 대해 설명하였습니다. 목차 자연어 처리는 인공지능 분야로부터 파생된 영역으로, 인공지능은 기계가 생각하고 판단할 수 있도록 인공적으로 지능을 만드는 분야입니다. 인공적인 지능 생성을 위해서는 인간의 언어를 이해할 수 있는 기능이 요구되며, 따라서 컴퓨터가 인간의 언어인 자연어를 이해하고, 처리할 수 있도록 하는 자연어 처리가 중요하게 되었습니다. NLP는 인간의 언어가 사용되는 실세계의 모든 영역에서 활용될 수 있으며, 예를 들어 아래의 영역에 있어 활용될 수 있습니다. 정보검색, 질의응답 시스템 기계번역, 자동통역 문서작성, 문서 요약, 문서 분류, 철자 오류 검색 및 수정, 문법 오류 검사 및 수정.. 2021. 5. 26.
[Crawling] 크롤링을 위해 필요한 필수 HTML 지식 이해하기! - (3) 선택자 크롤링을 처음 시작할 때 무턱대고 예시 코드만 보고 시작했다가 다른 사이트에서 크롤링을 시도하게 되면 자꾸 오류만 나고 헤매었던 경험, 크롤링 초보라면 낯설지 않을겁니다. HTML 기초 필수 지식을 익히신다면, 크롤링 예시 코드가 왜 그렇게 구성되어있나!! 하는 것들을 좀 더 잘 익히실 수 있을 겁니다. 실제로 크롤링을 활용해보고 싶은 초보 크롤러분들께 필요한 HTML 기초 필수 지식을 담았습니다. 이번 포스팅에서는 크롤링을 할 때에 사용되는 '선택자' 개념에 대해 다루어보도록 하겠습니다. 선택자란? 선택자란 말 그대로 선택을 해주는 요소입니다. 주로 css에서 스타일을 적용하기 위해 쓰이는 개념인데요, 크롤링에서의 선택자는 가져오고자 하는 데이터를 선택하는 것 또는 해당 데이터의 문서 내 위치 정도로 .. 2021. 5. 26.
[Crawling] 크롤링을 위해 필요한 필수 HTML 지식 이해하기! - (2) 웹페이지에서 데이터 찾기 크롤링을 처음 시작할 때 무턱대고 예시 코드만 보고 시작했다가 다른 사이트에서 크롤링을 시도하게 되면 자꾸 오류만 나고 헤매었던 경험, 크롤링 초보라면 낯설지 않을겁니다. HTML 기초 필수 지식을 익히신다면, 크롤링 예시 코드가 왜 그렇게 구성되어있나!! 하는 것들을 좀 더 잘 익히실 수 있을 겁니다. 실제로 크롤링을 활용해보고 싶은 초보 크롤러분들께 필요한 HTML 기초 필수 지식을 담았습니다. 웹페이지에서 데이터 찾기 지난 포스팅에서 언급한 바와 같이 데이터 수집(크롤링)은 우리가 원하는 내용을 감싸고있는 태그를 찾아 태그가 가지고 있는 데이터를 찾는 것입니다. 그러면 이제 웹페이지의 HTML 문서를 확인하여 문서에서 우리가 원하는 데이터를 찾기 위해, 데이터를 감싸고 있는 대그를 찾는 방법을 알아.. 2021. 5. 25.
[Crawling] 크롤링을 위해 필요한 필수 HTML 지식 이해하기! - (1) HTML이란? 크롤링을 처음 시작할 때 무턱대고 예시 코드만 보고 시작했다가 다른 사이트에서 크롤링을 시도하게 되면 자꾸 오류만 나고 헤매었던 경험, 크롤링 초보라면 낯설지 않을겁니다. 크롤링을 위해 필요한 필수 HTML 지식 이해하기! 포스팅을 따라가며 HTML 기초 필수 지식을 익히신다면, 크롤링 예시 코드가 왜 그렇게 구성되어있나!! 하는 것들을 좀 더 잘 익히실 수 있을 겁니다. 실제로 크롤링을 활용해보고 싶은 초보 크롤러분들께 필요한 HTML 기초 필수 지식을 담았습니다. HTML이란? 웹은 크게 다음의 세 가지로 구성됩니다 HTML은 웹의 뼈대를 구성하는 언어, CSS는 웹의 시각적인 표현을 담당하는 언어, JavaScript는 웹의 동적 처리를 담당하는 언어로, 크롤링을 하는 데에는 웹의 뼈대를 구성하는 .. 2021. 5. 24.
반응형