크롤링6 파이썬 스크래퍼(python scrapper) * 플레이 시 광고가 나옵니다.(카카오 스테이션 사용으로 인해 광고발생) 1) 기능 설명 검색어를 기반으로 원격근무 채용정보를 StackOverflow, WeWork, RemoteOk 세가지 사이트에서 크롤링 Based on a search word, the program scraps remote jobs' info from the three different platforms which are StackOverflow, WeWork, RemoteOk. fake DB를 사용하여 검색한 자료를 저장하고 재검색되면 불러올 수 있도록 하여 크롤링 검색 속도를 향상 While the program is running, if a user searches the same word that has searched b.. 2020. 9. 7. Flask로 웹스크래퍼 만들기 - 전체 코드 * 복붙 하시고 코드정리 하시길 바랍니다. 1. scrapper.py import requests from bs4 import BeautifulSoup LIMIT = 50 def get_last_pages(url): result = requests.get(url) soup = BeautifulSoup(result.text, "html.parser") pagination = soup.find("div", {"class": "pagination"}) links = pagination.find_all('a') pages = [] for link in links[:-1]: pages.append(int(link.string)) max_page = pages[-1] return max_page def extrac.. 2020. 8. 12. Flask로 웹스크래퍼 만들기 - 1 - 이번 포스팅에서는 앞서 만든 웹스크래퍼를 Flask를 이용하여 웹으로 구현하는 방법을 포스팅합니다. 1. Flask란 무엇인가? - Flask는 파이썬을 이용해 웹사이트를 만들 수 있게 도와주는 micro-framework입니다. 기존의 Java의 Spring이나 Python의 Django와는 다르게 환경설정에 특별히 set-up해줄게 없어서 사용하기 편한 Framework입니다. 2. Flask 다운받기 및 설치 - 저는 repl.it이라는 사이트에서 파이썬을 이용하고 있기 때문에 설치하는데에 어려움이 없습니다. 혹시 로컬로 작업하시는 분들은 먼저 Flask 사용을 위해 환경구축을 해주세요. 3. 시작하기 (1) Flask 설치를 마치고 import해준 다음에 Flask의 이름을 설정합니다. app.. 2020. 8. 9. 파이썬으로 웹스크래퍼 만들기 - 6 1. CSV 파일 만들기 - 구직사이트에서 받아온 데이터를 CSV(엑셀)파일의 형식으로 만들어보겠습니다. - indeed에서 받아온 자료부터 만들어보겠습니다. (1) save.py - open이라는 함수는 파일을 읽거나 해당 파일이 존재하지 않을 시 생성하는 함수입니다. 이 함수를 이용해 파일을 생성합니다. - 코드작성의 편의를 위해 잠시동안 스크래퍼 기능들을 주석처리합니다. save.py에 함수를 만들어준 뒤 main에서 실행을 하게 되면 job.csv라는 파일을 생성합니다. (2) 행(column) 만들기 - indeed에서 받아온 정보는 title, company, location, link 이렇게 4가지 입니다. 이 4가지 종류의 데이터가 엑셀파일에서 행(column)의 역할을 하게 됩니다. 아래.. 2020. 8. 6. 파이썬으로 웹스크래퍼 만들기 - 5 1. StackOverflow를 이용한 크롤링 예제 - 이번에는 StackOverflow를 이용해 스크래퍼를 만들어봅시다. 이전 포스팅에서와 같은 방식으로 직접 만들어보세요. - 아래에 저의 코드를 함께 올려놓겠습니다. 1. indeed.py import requests from bs4 import BeautifulSoup LIMIT = 50 INDEED_URL = f"https://kr.indeed.com/jobs?q=java&l=%EC%84%9C%EC%9A%B8%ED%8A%B9%EB%B3%84%EC%8B%9C&jt=new_grad&limit={LIMIT}&radius=25" #검색결과 마지막 페이지번호 찾는 function def get_last_pages(): result = requests.get.. 2020. 8. 5. 파이썬으로 웹스크래퍼 만들기 - 2 1. 사이트 주소(url) 알아내기 - indeed 사이트의 정보를 추출하는 웹 스크래퍼를 만들어 볼겁니다. 자신이 원하는 검색어로 검색을 한 뒤에 맞춤검색을 통해 페이지에 표시할 검색결과의 개수를 50개로 설정해 주세요. 이후 나온 검색결과의 url 주소를 복사해두시면 됩니다. 저는 서울특별시의 직장 중 java를 필요로하는 신입공채를 검색하였습니다. 2. Requests 라이브러리 설치하기 - 웹 스크래퍼를 만들기 위해서는 먼저 URL에 대한 요청을 처리할 수 있는 기능을 가진 라이브러리를 필요로 합니다. 그렇기에 Requests라는 라이브러리를 설치합니다. (1) 왼쪽 메뉴바에서 패키지를 선택하고 request를 검색한 뒤에 첫번째 검색결과를 선택합니다. (2) 첫번째 검색결과를 선택 후 오른편에 .. 2020. 8. 3. 이전 1 다음