본문 바로가기

AI/데이터 엔지니어링 데브코스32

[2주차-3] 파이썬으로 웹 다루기 - 원하는 요소 가져오기 BeautifulSoup 1) 웹사이트에서 확인: 특정 요소가 어떤 태그로 감싸져 있는지 확인하기 사이트에서 F12버튼을 통해 개발자도구에 접속해서 확인할 수 있고, 마우스 오른쪽 버튼을 눌러서 '검사'를 통해 확인할 수 있다. 2) BeautifulSoup 객체 만들고 참조하기 %pip install bs4 import requests from bs4 import BeautifulSoup res = requests.get("http://www.example.com") # 첫번째 인자로는 response의 body를 텍스트로 전달한다. # 두번째 인자로는 "html"로 분석한다는 것을 명시해준다. soup = BeautifulSoup(res.text, "html.parser") print(soup.pre.. 2023. 4. 19.
[2주차-2] 파이썬으로 웹 다루기 - HTTP HTTP(Hypertext Transfer Protocal) 웹 상에서 정보를 주고 받기 위한 약속 파이썬에서 request 라이브러리로 HTTP 통신 진행하기 get: 정보를 달라고 요청하기 # `%`를 이용해서 노트북(.ipynb) 환경에서 터미널 코드를 실행할 수 있습니다. %pip install requests import requests res = requests.get("https://www.naver.com") res.headers # Header를 확인하기 res.text[:1000] # Body를 텍스트 형태로 확인하기 post: 정보를 보내기 ex) 로그인 하기 https://webhook.site : 정보 교환을 확인할 수 있는 사이트, 컴퓨터마다 고유주소를 만들어준다. # paylo.. 2023. 4. 19.
[2주차-1] 파이썬으로 웹 다루기 - HTML HTML은 콘텐츠를 가지는 태그와 가지지 않는 태그로 나뉜다. 1) 콘텐츠를 가지는 태그: 열리는 태그(시작태그) + 콘텐츠 + 닫히는 태그(종료테그) ex) 콘텐츠 2)콘텐츠를 가지지 않는 태그: 단일 태그 cf) />: 단일태그를 위한 셀프 클로징 html의 기본구조는 다음과 같다. 인라인인라인 옆에 글자 나는 블록 이제부터 head, body, 레이아웃, 콘텐츠 순서로 살펴보자. 사람 눈에 보이지 않는 “문서의 정보”가 담기는 영역 1) 타이틀: 제목 2) 메타 데이터: 인코딩 정보, 문서 설명, 문서 작성자 *charset은 문서에서 허용하는 문자의 집합이다. charset에 선언된 “문자의 집합” 규칙에 따라 문서에서 사용할 수 있는 문자가 제한된다. 따라서 모든 언어를 사용할 수 있는 인코딩을.. 2023. 4. 18.
[1주차-5] 코딩테스트 연습 - 힙, DFS/BFS, 동적 계획법(Dynamic Programming) 힙(Heap) 힙 알고리즘을 이용하면 최대와 최소를 빠르게 찾을 수 있고 일반적으로 완절 이진 트리(배열로 구현 가능)로 구성된다. 문제에서 리스트 내의 원소를 모두 정렬하지 않고 최대나 최소만을 필요로 할 때, 효과적으로 사용될 수 있다. max heap: 최대의 원소를 빠르게 꺼내는 방법 min heap: 최소의 원소를 빠르게 꺼내는 방법 힙 연산: 힙 구성(NlogN), 삽입 O(logN), 삭제(logN) 힙의 응용: 정렬(heapsort), 우선 순위 큐 #파이썬에서 힙의 적용 import heapq L = [1,2,3,4,5] x = 7 heapq.heapify(L) #리스트 L로부터 min heap 구성 m = heapq.heappop(L) #min heap L에서 최소값 삭제(반환) hea.. 2023. 4. 14.