본문 바로가기
개발일지 Dev Diaries/회고 Retrospective

[TIL] window10 화면 녹화, 크롤링/파싱/스크롤링, MongoDB db 개수 확인하기,

by 이땡칠 2022. 2. 27.

 

 

1. window10 화면 녹화

   window 키 + Alt + R 

 

 

2. 크롤링/파싱/스크롤링

# 크롤링(crawling)

# 크롤링이란 단어는 웹 크롤러(crawler)라는 단어에서 시작한 말이다.
# 크롤러란 조직적, 자동화된 방법으로 월드와이드 웹을 탐색하는 컴퓨터 프로그램이다.(출처: 위키백과)
# 크롤링은 크롤러가 하는 작업을 부르는 말로, 여러 인터넷 사이트의 페이지(문서, html 등)를 수집해서 분류하는 것이다.
# 대체로 찾아낸 데이터를 저장한 후 쉽게 찾을 수 있게 인덱싱한다.


# 파싱(parsing)

# 파싱이란 어떤 페이지(문서, html 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보를 가공하는 것이다.
# 컴퓨터 과학적 정의를 보면 파싱이란 일련의 문자열을 의미있는 토큰(token)으로 분해하고
# 이들로 이루어진 파스 트리(parse tree)를 만드는 과정을 말한다.(출처: 위키백과)
# parsing은 일련의 문자열을 의미있는 token(어휘 분석의 단위) 으로 분해하고 그것들로 이루어진 Parse tree를 만드는 과정
# 문서의 내용을 *토큰(token)으로 분석하고, 문법적 의미와 구조를 반영한 *파스트리(parse tree)를 생성하는 과정
# 인터프리터나 컴파일러의 구성 요소 가운데 하나로, 입력 토큰에 내제된 자료 구조를 빌드하고 문법을 검사하는 역할을 한다.


# 스크래핑(scraping)

# 스크래핑이란 HTTP를 통해 웹 사이트의 내용을 긁어다 원하는 형태로 가공하는 것이다.
# 쉽게 말해 웹 사이트의 데이터를 수집하는 모든 작업을 뜻한다.
# 크롤링도 일종의 스크래핑 기술이라고 할 수 있다.

 

3. MongoDB 속성값 별 db 개수 확인하기

##장르별 db 개수 확인하기
from pymongo import MongoClient

client = MongoClient('몽고디비 connection string 복사 후 입력')
db = client.dbsparta

genres = ['장르값 1','장르값 2','장르값 3'...]
for genre in genres:
    webtoon=list(db.webtoons.find({'genre':str(genre)}))
    print(len(webtoon))

 

 

 

댓글