1. window10 화면 녹화
window 키 + Alt + R
2. 크롤링/파싱/스크롤링
# 크롤링(crawling)
# 크롤링이란 단어는 웹 크롤러(crawler)라는 단어에서 시작한 말이다.
# 크롤러란 조직적, 자동화된 방법으로 월드와이드 웹을 탐색하는 컴퓨터 프로그램이다.(출처: 위키백과)
# 크롤링은 크롤러가 하는 작업을 부르는 말로, 여러 인터넷 사이트의 페이지(문서, html 등)를 수집해서 분류하는 것이다.
# 대체로 찾아낸 데이터를 저장한 후 쉽게 찾을 수 있게 인덱싱한다.
# 파싱(parsing)
# 파싱이란 어떤 페이지(문서, html 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보를 가공하는 것이다.
# 컴퓨터 과학적 정의를 보면 파싱이란 일련의 문자열을 의미있는 토큰(token)으로 분해하고
# 이들로 이루어진 파스 트리(parse tree)를 만드는 과정을 말한다.(출처: 위키백과)
# parsing은 일련의 문자열을 의미있는 token(어휘 분석의 단위) 으로 분해하고 그것들로 이루어진 Parse tree를 만드는 과정
# 문서의 내용을 *토큰(token)으로 분석하고, 문법적 의미와 구조를 반영한 *파스트리(parse tree)를 생성하는 과정
# 인터프리터나 컴파일러의 구성 요소 가운데 하나로, 입력 토큰에 내제된 자료 구조를 빌드하고 문법을 검사하는 역할을 한다.
# 스크래핑(scraping)
# 스크래핑이란 HTTP를 통해 웹 사이트의 내용을 긁어다 원하는 형태로 가공하는 것이다.
# 쉽게 말해 웹 사이트의 데이터를 수집하는 모든 작업을 뜻한다.
# 크롤링도 일종의 스크래핑 기술이라고 할 수 있다.
3. MongoDB 속성값 별 db 개수 확인하기
##장르별 db 개수 확인하기
from pymongo import MongoClient
client = MongoClient('몽고디비 connection string 복사 후 입력')
db = client.dbsparta
genres = ['장르값 1','장르값 2','장르값 3'...]
for genre in genres:
webtoon=list(db.webtoons.find({'genre':str(genre)}))
print(len(webtoon))
'개발일지 Dev Diaries > 회고 Retrospective' 카테고리의 다른 글
[TIL] (22.07.02) 자료구조&알고리즘, OS, 네트워크, 자바스크립트, 리액트 (0) | 2022.07.02 |
---|---|
[WIL] React - DOM , 서버리스 (0) | 2022.03.27 |
[WIL, TIL] 3월 2주 정리 (작성중) (0) | 2022.03.12 |
[TIL] 개발자 공부, 뭐 부터 해야할까? (0) | 2022.03.01 |
주특기 결정 : React (리액트) (0) | 2022.02.25 |
댓글