Commit @2b523c87dcd6073b0fd59d4b9fbbbadfd68c1da4 - yjyoon/구미시-네이버-블로그-스크레퍼

윤영준 2023-12-14

added daum scrapper

@2b523c87dcd6073b0fd59d4b9fbbbadfd68c1da4

2b523c8

daum_cafe_scrapper.py (added)

+++ daum_cafe_scrapper.py

...	...	@@ -0,0 +1,210 @@
	1	+import re
	2	+import regex
	3	+import time
	4	+import pandas as pd
	5	+import os
	6	+import bs4
	7	+import multiprocessing
	8	+from datetime import datetime, timedelta
	9	+from selenium import webdriver
	10	+from selenium.webdriver.common.by import By
	11	+from webdriver_manager.chrome import ChromeDriverManager
	12	+from selenium.webdriver.chrome.service import Service as ChromeService
	13	+from joblib import Parallel, delayed
	14	+from utils.cache_clear import delete_cache
	15	+
	16	+
	17	+def get_url(keyword, start_date, end_date, page_num):
	18	+ url = (f"https://search.daum.net/search?"
	19	+ f"w=fusion&nil_search=btn&DA=PGD"
	20	+ f"&q={keyword}"
	21	+ f"&col=cafe&sort=recency"
	22	+ f"&sd={start_date.replace('-','')}000000&ed={end_date.replace('-','')}235959"
	23	+ f"&period=u&p={page_num}")
	24	+ return url
	25	+
	26	+def remove_tags(html):
	27	+ # parse html content
	28	+ soup = bs4.BeautifulSoup(html, "html.parser")
	29	+
	30	+ for data in soup(['style', 'script']):
	31	+ # Remove tags
	32	+ data.decompose()
	33	+
	34	+ # return data by retrieving the tag content
	35	+ return ' '.join(soup.stripped_strings)
	36	+
	37	+
	38	+
	39	+def scrap_agent(url, keyword, start_date, end_date, page_num):
	40	+ # Chrome WebDriver 설치 경로 가져오기
	41	+ chrome_path = ChromeDriverManager().install()
	42	+ # WebDriver 설정
	43	+ options = webdriver.ChromeOptions()
	44	+ options.add_experimental_option("excludeSwitches", ["enable-automation"])
	45	+ options.add_experimental_option("useAutomationExtension", False)
	46	+ # options.add_argument('headless')
	47	+ options.add_argument('window-size=1920x1080')
	48	+ options.add_argument("disable-gpu")
	49	+ options.add_argument("user-agent=Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko")
	50	+
	51	+ # WebDriver 초기화
	52	+ driver = webdriver.Chrome(service=ChromeService(chrome_path), options=options)
	53	+ driver.get(url)
	54	+ time.sleep(2)
	55	+
	56	+ # infinity_scroll_to_the_bottom(driver)
	57	+
	58	+ try :
	59	+ single_page_search_result = driver.find_elements(By.CSS_SELECTOR, "c-container.hydrated")
	60	+ except :
	61	+ final_page = regex.search(r'<div id=\"noResult\"', driver.page_source)
	62	+ try :
	63	+ print("No more search_result!")
	64	+ return None
	65	+ except :
	66	+ raise "Error! the page has not loaded properly, you must look for connection!"
	67	+
	68	+ search_result_plain_html = single_page_search_result[0].get_attribute('innerHTML')
	69	+ formatter = bs4.formatter.HTMLFormatter(indent=1)
	70	+ search_result_plain_html_beautified = bs4.BeautifulSoup(search_result_plain_html, 'html.parser').prettify(formatter=formatter)
	71	+
	72	+ search_result_contents = regex.findall(r'<c-card class="_cubic hydrated">(.*?)\n</c-card>', search_result_plain_html_beautified, re.DOTALL)
	73	+
	74	+ ret = {
	75	+ "url": [],
	76	+ "title": [],
	77	+ "cafe_name": [],
	78	+ "post_date": [],
	79	+ "text": [],
	80	+ "topic": []
	81	+ }
	82	+ for content in search_result_contents:
	83	+ content = content.replace("\n", "")
	84	+ title_and_url_extract = regex.search(r'<div class=\"fmenu-layer layer_item\" (.*?)>', content)
	85	+ href = regex.search(r'data-link=\"(.*?)\"', title_and_url_extract.group(1)).group(1)
	86	+ title = regex.search(r'data-title=\"(.*?)\"', title_and_url_extract.group(1)).group(1)
	87	+ text = regex.search(r'<p class="conts-desc clamp-g">(.*?)</p>',content)
	88	+ cafe_name = regex.search(r'<c-frag class=\"_cubic hydrated\" slot=\"_slt1\">(.*?)</c-frag>', content)
	89	+ post_date = regex.search(r'<c-footer-desc class=\"_cubic hydrated\" slot=\"info\">(.*?)</c-footer-desc>',content)
	90	+ text = remove_tags(text.group(1))
	91	+ cafe_name = remove_tags(cafe_name.group(1))
	92	+ post_date = remove_tags(post_date.group(1))
	93	+
	94	+ topic_extract = regex.search(r'<c-header-item class=\"_cubic hydrated\"(.*?)>', content).group(1)
	95	+ topic = regex.search(r'\"topic\":\{(.*?)\}', topic_extract).group(1)
	96	+ topic = regex.findall(r'\"(.*?)\"', topic)
	97	+ topic = '&'.join(topic)
	98	+
	99	+ ret["url"].append(href)
	100	+ ret["title"].append(title)
	101	+ ret["cafe_name"].append(cafe_name)
	102	+ ret["post_date"].append(post_date)
	103	+ ret["text"].append(text)
	104	+ ret["topic"].append(topic)
	105	+ delete_cache(driver)
	106	+ driver.close()
	107	+
	108	+
	109	+ out_df = pd.DataFrame.from_dict(ret)
	110	+ base_dir = "daum_cafe"
	111	+ if not os.path.exists(f"{base_dir}/{keyword}"):
	112	+ os.mkdir(f"{base_dir}/{keyword}")
	113	+ save_file_name = f"{start_date}-{end_date}-{page_num}.csv"
	114	+ out_df.to_csv(f"{base_dir}/{keyword}/{save_file_name}", index=False)
	115	+ print(f"saved {base_dir}/{keyword}/{save_file_name}")
	116	+ return ret
	117	+
	118	+def merge_dicts(dict_list):
	119	+ # Initialize the result dictionary with empty lists
	120	+ result = {
	121	+ "url": [],
	122	+ "title": [],
	123	+ "blog_name": [],
	124	+ "post_date": [],
	125	+ "text": [],
	126	+ "topic": []
	127	+ }
	128	+
	129	+ # Iterate through each dictionary and merge the lists
	130	+ for d in dict_list:
	131	+ for key in result.keys():
	132	+ result[key].extend(d.get(key, []))
	133	+
	134	+ return result
	135	+
	136	+
	137	+def generate_date_range(start_date, end_date, interval):
	138	+ """
	139	+ :param start_date: start date in datetimestr formatted in %Y-%m-%d
	140	+ :param end_date: end date in datetimestr formatted in %Y-%m-%d
	141	+ :param interval: interval of time in DAYS
	142	+ :return: returns list of time interval that will be feeded into naver_blog_scrapper.
	143	+ for example, [[2023-10-01, 2023-10-07],[2023-10-08, 2023-10-14]] for generate_date_range("2023-10-01", "2023-10-14", 7)
	144	+ Also, this function can handle when the time range of start and end date is not perfectly divisible by interval
	145	+ generate_date_range("2023-10-01", "2023-10-14", 10) will produce output [['2023-10-01', '2023-10-10'], ['2023-10-11', '2023-10-14']]
	146	+ """
	147	+
	148	+ # Convert the start and end date strings to datetime objects
	149	+ start = datetime.strptime(start_date, "%Y-%m-%d")
	150	+ end = datetime.strptime(end_date, "%Y-%m-%d")
	151	+
	152	+ # Generate a range of dates from start to end
	153	+ date_ranges = []
	154	+ current_date = start
	155	+ while current_date < end:
	156	+ current_end = min(current_date + timedelta(days=interval - 1), end)
	157	+ date_ranges.append([current_date.strftime("%Y-%m-%d"), current_end.strftime("%Y-%m-%d")])
	158	+ current_date = current_end + timedelta(days=1)
	159	+
	160	+ return date_ranges
	161	+
	162	+
	163	+def daum_cafe_scrapper(keyword, start_date, end_date, interval, browser_thread_count=1):
	164	+
	165	+ last_page = 502
	166	+ current_page = 2 # daum starts the page_num from 2
	167	+ date_ranges = generate_date_range(start_date, end_date, interval)
	168	+ print("!!")
	169	+ for date_range in date_ranges:
	170	+ ret = 0
	171	+ while ret is not None:
	172	+ url = get_url(keyword, date_range[0], date_range[1], current_page)
	173	+ ret = scrap_agent(url, date_range[0], date_range[1], interval, current_page)
	174	+ current_page += 1
	175	+
	176	+if __name__ == "__main__":
	177	+ scrap_agent("https://search.daum.net/search?nil_suggest=btn&w=fusion&DA=SBC&q=%EA%B5%AC%EB%AF%B8&sd=20220101000000&ed=20220101235959&period=u&col=cafe&p=2", "dummy", "dummy", "dummy", "dummy")
	178	+ # scrap_agent("https://search.daum.net/search?w=fusion&nil_search=btn&DA=PGD&q=%EA%B5%AC%EB%AF%B8&col=cafe&sort=recency&sd=20221111000000&ed=20221111235959&period=u&p=5",
	179	+ # "구미",
	180	+ # "2020",
	181	+ # "2020")
	182	+ # daum_cafe_scrapper("선산읍", start_date="2022-01-01", end_date="2022-01-02", interval=1, browser_thread_count=1)
	183	+ # daum_cafe_scrapper("고아읍", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	184	+ # daum_cafe_scrapper("산동읍", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	185	+ # daum_cafe_scrapper("도개면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	186	+ # daum_cafe_scrapper("장천면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	187	+ # daum_cafe_scrapper("무을면", start_date="2023-10-23", end_date="2023-10-31", interval=30, browser_thread_count=1)
	188	+ # daum_cafe_scrapper("해평면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	189	+ # daum_cafe_scrapper("옥성면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	190	+ # daum_cafe_scrapper("구미 송정동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=2)
	191	+ # daum_cafe_scrapper("원평동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=2)
	192	+ # daum_cafe_scrapper("구미 지산동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=2)
	193	+ # daum_cafe_scrapper("도량동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=2)
	194	+ # daum_cafe_scrapper("선주원남동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=2)
	195	+ # daum_cafe_scrapper("신평1동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	196	+ # daum_cafe_scrapper("신평2동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	197	+ # daum_cafe_scrapper("형곡1동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	198	+ # daum_cafe_scrapper("형곡2동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	199	+ # daum_cafe_scrapper("구미 비산동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	200	+ # daum_cafe_scrapper("공단동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=1)
	201	+ # daum_cafe_scrapper("광평동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	202	+ # daum_cafe_scrapper("상모사곡동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	203	+ # daum_cafe_scrapper("임오동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	204	+ # daum_cafe_scrapper("인동동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	205	+ # daum_cafe_scrapper("진미동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	206	+ # daum_cafe_scrapper("양표동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	207	+ #
	208	+ # daum_cafe_scrapper("구미", start_date="2022-01-01", end_date="2023-10-31", interval=1, browser_thread_count=1)
	209	+ # daum_cafe_scrapper("구미시장", start_date="2022-01-01", end_date="2023-10-31", interval=7, browser_thread_count=1)
	210	+

a67fc8a

2b523c8

naver_cafe_inifinityscroll_from_searchengine.py

--- naver_cafe_inifinityscroll_from_searchengine.py

+++ naver_cafe_inifinityscroll_from_searchengine.py


 from tqdm import tqdm
 from joblib import Parallel, delayed
 from utils.cache_clear import delete_cache
+from utils.infinity_scroll import infinity_scroll_to_the_bottom
 import warnings
 
 
 def get_url(keyword, start_date, end_date):
     # 오케이독본점 SEO 고용함. 스팸 개쩜
     url = (
-        f"https://search.naver.com/search.naver?"
-        f'nso=so%3Add%2Cp%3Afrom{start_date.replace("-", "")}to{end_date.replace("-", "")}'
-        f'&nso_open=1&prdtype=0&query={keyword}+-오케이독본점'
-        f'&sm=mtb_opt'
-        f'&st=date'
-        f'&stnm=date&where=articleg'
-        f'&opt_tab=0'
-        f'&date_from={start_date.replace("-", "")}&date_to={end_date.replace("-", "")}'
-    )
+        f"https://search.naver.com/search.naver?where=articleg&query={keyword} -오케이독본점 -부동산 -강아지무료분양&ie=utf8"
+        "&st=date&date_option=8"
+        f"&date_from={start_date.replace('-', '.')}&date_to={end_date.replace('-', '.')}"
+        "&srchby=text"
+        "&dup_remove=1"
+        "&cafe_url=&without_cafe_url="
+        "&sm=tab_opt&nso=so"
+        f"%3Add%2Cp%3Afrom{start_date.replace('-', '')}to{end_date.replace('-', '')}&nso_open=1&prdtype=0"
+   )
 
-        # f"https://search.naver.com/search.naver?where=articleg&query={keyword}+-오케이독본점&nso_open=1&prdtype=0"
-        #    f"&oquery={keyword}"
-        #    f"&ie=utf8&st=rel&date_option=8"
-        #    f"&date_from={start_date.replace('-','.')}"
-        #    f"&date_to={end_date.replace('-','.')}"
-        #    f"&srchby=text&dup_remove=1"
-        #    f"&cafe_url=&without_cafe_url="
-        #    f"&sm=tab_opt&nso=so%3Add%2Cp%3Afrom{start_date.replace('-','')}to{end_date.replace('-','')}&nso_open=1&prdtype=0")
     return url
 
 def remove_tags(html):

     # return data by retrieving the tag content
     return ' '.join(soup.stripped_strings)
 
-def infinity_scroll_to_the_bottom(driver):
-    # Automatically scroll the page
-    MAXITER = 2000
-    scroll_pause_time = 0.1 + random.random() * 2  # Pause between each scroll
-    screen_height = driver.execute_script("return window.screen.height;")  # Browser window height
-    i = 1
-    while i < MAXITER:
-        # Scroll down
-        driver.execute_script(f"window.scrollTo(0, {screen_height * i + random.randint(1, 500)});")
-        i += 1
-        time.sleep(scroll_pause_time)
 
-        # Check if reaching the end of the page
-        scroll_height = driver.execute_script("return document.body.scrollHeight;")
-        # print(scroll_height)
-        if screen_height * i > scroll_height:
-            break
-    return driver
 
 def scrap_agent(url, keyword, start_date, end_date):
     # Chrome WebDriver 설치 경로 가져오기

 
     infinity_scroll_to_the_bottom(driver)
 
+
     single_page_search_result = driver.find_elements(By.CSS_SELECTOR, ".lst_view")
+    if single_page_search_result==[] :
+        print("There is no result! really, None, or you can check it by yourself at :\n"
+              f"{url}\n"
+              f"this is with keyword {keyword} with time range {start_date} ~ {end_date}")
+        return None
 
     search_result_plain_html = single_page_search_result[0].get_attribute('innerHTML')
     formatter = bs4.formatter.HTMLFormatter(indent=1)

 
 
 if __name__ == "__main__":
-    naver_cafe_scrapper("선산읍", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
-    naver_cafe_scrapper("고아읍", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
-    naver_cafe_scrapper("산동읍", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
-    naver_cafe_scrapper("도개면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
-    naver_cafe_scrapper("장천면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
-    naver_cafe_scrapper("무을면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
-    naver_cafe_scrapper("해평면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
-    naver_cafe_scrapper("옥성면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
-    naver_cafe_scrapper("구미 송정동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=1)
-    naver_cafe_scrapper("원평동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=1)
-    naver_cafe_scrapper("구미 지산동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=1)
-    naver_cafe_scrapper("도량동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=1)
-    naver_cafe_scrapper("선주원남동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=1)
+    # naver_cafe_scrapper("선산읍", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
+    # naver_cafe_scrapper("고아읍", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
+    # naver_cafe_scrapper("산동읍", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
+    # naver_cafe_scrapper("도개면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
+    # naver_cafe_scrapper("장천면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
+    # naver_cafe_scrapper("무을면", start_date="2023-10-23", end_date="2023-10-31", interval=30, browser_thread_count=1)
+    # naver_cafe_scrapper("해평면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
+    # naver_cafe_scrapper("옥성면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
+    naver_cafe_scrapper("구미 송정동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=2)
+    naver_cafe_scrapper("원평동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=2)
+    naver_cafe_scrapper("구미 지산동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=2)
+    naver_cafe_scrapper("도량동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=2)
+    naver_cafe_scrapper("선주원남동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=2)
     naver_cafe_scrapper("신평1동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
     naver_cafe_scrapper("신평2동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
     naver_cafe_scrapper("형곡1동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)

2b523c8

naver_neighbor_cafe_scrapper.py (added)

+++ naver_neighbor_cafe_scrapper.py

...	...	@@ -0,0 +1,102 @@
	1	+import random
	2	+import re
	3	+import regex
	4	+import time
	5	+import math
	6	+import pandas as pd
	7	+import os
	8	+import bs4
	9	+from bs4 import MarkupResemblesLocatorWarning
	10	+from datetime import datetime, timedelta
	11	+from selenium import webdriver
	12	+from selenium.webdriver.common.by import By
	13	+from webdriver_manager.chrome import ChromeDriverManager
	14	+from selenium.webdriver.chrome.service import Service as ChromeService
	15	+from tqdm import tqdm
	16	+from joblib import Parallel, delayed
	17	+from utils.cache_clear import delete_cache
	18	+from utils.infinity_scroll import infinity_scroll_to_the_bottom
	19	+import warnings
	20	+
	21	+def remove_tags(html):
	22	+ # parse html content
	23	+ soup = bs4.BeautifulSoup(html, "html.parser")
	24	+
	25	+ for data in soup(['style', 'script']):
	26	+ # Remove tags
	27	+ data.decompose()
	28	+
	29	+ # return data by retrieving the tag content
	30	+ return ' '.join(soup.stripped_strings)
	31	+
	32	+
	33	+
	34	+def scrap_agent(url, keyword, start_date, end_date):
	35	+ # Chrome WebDriver 설치 경로 가져오기
	36	+ chrome_path = ChromeDriverManager().install()
	37	+ # WebDriver 설정
	38	+ options = webdriver.ChromeOptions()
	39	+ options.add_experimental_option("excludeSwitches", ["enable-automation"])
	40	+ options.add_experimental_option("useAutomationExtension", False)
	41	+ options.add_argument('headless')
	42	+ options.add_argument('window-size=1920x1080')
	43	+ options.add_argument("disable-gpu")
	44	+ # options.add_argument("user-agent=Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko")
	45	+
	46	+ # WebDriver 초기화
	47	+ driver = webdriver.Chrome(service=ChromeService(chrome_path), options=options)
	48	+ driver.get(url)
	49	+ time.sleep(2)
	50	+
	51	+ infinity_scroll_to_the_bottom(driver)
	52	+
	53	+
	54	+ single_page_search_result = driver.find_elements(By.CSS_SELECTOR, ".lst_view")
	55	+ if single_page_search_result==[] :
	56	+ print("There is no result! really, None, or you can check it by yourself at :\n"
	57	+ f"{url}\n"
	58	+ f"this is with keyword {keyword} with time range {start_date} ~ {end_date}")
	59	+ return None
	60	+
	61	+ search_result_plain_html = single_page_search_result[0].get_attribute('innerHTML')
	62	+ formatter = bs4.formatter.HTMLFormatter(indent=1)
	63	+ search_result_plain_html_beautified = bs4.BeautifulSoup(search_result_plain_html, 'html.parser').prettify(formatter=formatter)
	64	+
	65	+ search_result_contents = regex.findall(r'<li class="bx">(.*?)\n<\/li>', search_result_plain_html_beautified, re.DOTALL)
	66	+
	67	+ ret = {
	68	+ "url": [],
	69	+ "title": [],
	70	+ "cafe_name": [],
	71	+ "post_date": [],
	72	+ "text": []
	73	+ }
	74	+ for content in search_result_contents:
	75	+ content = content.replace("\n", "")
	76	+ href = "/".join(str(i) for i in regex.findall(r'href="([^"]+)/([^"]+)/([^"]+)/([^"]+)"', content, re.DOTALL)[0])
	77	+ title = regex.search(r'<div class="title_area">(.*?) </div>',content)
	78	+ text = regex.search(r' <div class="dsc_area">(.*?) <\/div>',content)
	79	+ cafe_name = regex.search(r' <div class="user_info">(.*?) </div>',content)
	80	+ post_date = regex.search(r'<span class="sub">(.*?)<\/span>',content)
	81	+ title = remove_tags(title.group(1))
	82	+ # title = title[:-11] # to remove date
	83	+ text = remove_tags(text.group(1))
	84	+ cafe_name = remove_tags(cafe_name.group(1))
	85	+ cafe_name = cafe_name[:-11]
	86	+ post_date = remove_tags((post_date.group(1)))
	87	+
	88	+ ret["url"].append(href)
	89	+ ret["title"].append(title)
	90	+ ret["cafe_name"].append(cafe_name)
	91	+ ret["post_date"].append(post_date)
	92	+ ret["text"].append(text)
	93	+ delete_cache(driver)
	94	+ driver.close()
	95	+
	96	+ # merged_result = merge_dicts(ret)
	97	+ out_df = pd.DataFrame.from_dict(ret)
	98	+ if not os.path.exists(f"cafe/{keyword}"):
	99	+ os.mkdir(f"cafe/{keyword}")
	100	+ out_df.to_csv(f"cafe/{keyword}/{start_date}-{end_date}.csv", index=False)
	101	+ print(f"saved cafe/{keyword}/{start_date}-{end_date}.csv")
	102	+ return ret(파일 끝에 줄바꿈 문자 없음)

2b523c8

utils/infinity_scroll.py (added)

+++ utils/infinity_scroll.py

...	...	@@ -0,0 +1,20 @@
	1	+import random
	2	+from time import sleep
	3	+
	4	+def infinity_scroll_to_the_bottom(driver, scroll_multiplier=1, MAXITER=2000):
	5	+ # Automatically scroll the page
	6	+ scroll_pause_time = 0.1 + random.random() * 2 # Pause between each scroll
	7	+ screen_height = driver.execute_script("return window.screen.height;") # Browser window height
	8	+ i = 1
	9	+ while i < MAXITER:
	10	+ # Scroll down
	11	+ driver.execute_script(f"window.scrollTo(0, {screen_height * i * scroll_multiplier + random.randint(1, 500)});")
	12	+ i += 1
	13	+ sleep(scroll_pause_time)
	14	+
	15	+ # Check if reaching the end of the page
	16	+ scroll_height = driver.execute_script("return document.body.scrollHeight;")
	17	+ # print(scroll_height)
	18	+ if screen_height * i > scroll_height:
	19	+ break
	20	+ return driver(파일 끝에 줄바꿈 문자 없음)

Add a comment

Open 0
Closed 0

List

...	...	@@ -15,30 +15,23 @@
15	15	from tqdm import tqdm
16	16	from joblib import Parallel, delayed
17	17	from utils.cache_clear import delete_cache
	18	+from utils.infinity_scroll import infinity_scroll_to_the_bottom
18	19	import warnings
19	20
20	21
21	22	def get_url(keyword, start_date, end_date):
22	23	# 오케이독본점 SEO 고용함. 스팸 개쩜
23	24	url = (
24		- f"https://search.naver.com/search.naver?"
25		- f'nso=so%3Add%2Cp%3Afrom{start_date.replace("-", "")}to{end_date.replace("-", "")}'
26		- f'&nso_open=1&prdtype=0&query={keyword}+-오케이독본점'
27		- f'&sm=mtb_opt'
28		- f'&st=date'
29		- f'&stnm=date&where=articleg'
30		- f'&opt_tab=0'
31		- f'&date_from={start_date.replace("-", "")}&date_to={end_date.replace("-", "")}'
32		- )
	25	+ f"https://search.naver.com/search.naver?where=articleg&query={keyword} -오케이독본점 -부동산 -강아지무료분양&ie=utf8"
	26	+ "&st=date&date_option=8"
	27	+ f"&date_from={start_date.replace('-', '.')}&date_to={end_date.replace('-', '.')}"
	28	+ "&srchby=text"
	29	+ "&dup_remove=1"
	30	+ "&cafe_url=&without_cafe_url="
	31	+ "&sm=tab_opt&nso=so"
	32	+ f"%3Add%2Cp%3Afrom{start_date.replace('-', '')}to{end_date.replace('-', '')}&nso_open=1&prdtype=0"
	33	+ )
33	34
34		- # f"https://search.naver.com/search.naver?where=articleg&query={keyword}+-오케이독본점&nso_open=1&prdtype=0"
35		- # f"&oquery={keyword}"
36		- # f"&ie=utf8&st=rel&date_option=8"
37		- # f"&date_from={start_date.replace('-','.')}"
38		- # f"&date_to={end_date.replace('-','.')}"
39		- # f"&srchby=text&dup_remove=1"
40		- # f"&cafe_url=&without_cafe_url="
41		- # f"&sm=tab_opt&nso=so%3Add%2Cp%3Afrom{start_date.replace('-','')}to{end_date.replace('-','')}&nso_open=1&prdtype=0")
42	35	return url
43	36
44	37	def remove_tags(html):
...	...	@@ -52,24 +45,7 @@
52	45	# return data by retrieving the tag content
53	46	return ' '.join(soup.stripped_strings)
54	47
55		-def infinity_scroll_to_the_bottom(driver):
56		- # Automatically scroll the page
57		- MAXITER = 2000
58		- scroll_pause_time = 0.1 + random.random() * 2 # Pause between each scroll
59		- screen_height = driver.execute_script("return window.screen.height;") # Browser window height
60		- i = 1
61		- while i < MAXITER:
62		- # Scroll down
63		- driver.execute_script(f"window.scrollTo(0, {screen_height * i + random.randint(1, 500)});")
64		- i += 1
65		- time.sleep(scroll_pause_time)
66	48
67		- # Check if reaching the end of the page
68		- scroll_height = driver.execute_script("return document.body.scrollHeight;")
69		- # print(scroll_height)
70		- if screen_height * i > scroll_height:
71		- break
72		- return driver
73	49
74	50	def scrap_agent(url, keyword, start_date, end_date):
75	51	# Chrome WebDriver 설치 경로 가져오기
...	...	@@ -90,7 +66,13 @@
90	66
91	67	infinity_scroll_to_the_bottom(driver)
92	68
	69	+
93	70	single_page_search_result = driver.find_elements(By.CSS_SELECTOR, ".lst_view")
	71	+ if single_page_search_result==[] :
	72	+ print("There is no result! really, None, or you can check it by yourself at :\n"
	73	+ f"{url}\n"
	74	+ f"this is with keyword {keyword} with time range {start_date} ~ {end_date}")
	75	+ return None
94	76
95	77	search_result_plain_html = single_page_search_result[0].get_attribute('innerHTML')
96	78	formatter = bs4.formatter.HTMLFormatter(indent=1)
...	...	@@ -193,19 +175,19 @@
193	175
194	176
195	177	if __name__ == "__main__":
196		- naver_cafe_scrapper("선산읍", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
197		- naver_cafe_scrapper("고아읍", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
198		- naver_cafe_scrapper("산동읍", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
199		- naver_cafe_scrapper("도개면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
200		- naver_cafe_scrapper("장천면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
201		- naver_cafe_scrapper("무을면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
202		- naver_cafe_scrapper("해평면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
203		- naver_cafe_scrapper("옥성면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
204		- naver_cafe_scrapper("구미 송정동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=1)
205		- naver_cafe_scrapper("원평동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=1)
206		- naver_cafe_scrapper("구미 지산동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=1)
207		- naver_cafe_scrapper("도량동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=1)
208		- naver_cafe_scrapper("선주원남동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=1)
	178	+ # naver_cafe_scrapper("선산읍", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	179	+ # naver_cafe_scrapper("고아읍", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	180	+ # naver_cafe_scrapper("산동읍", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	181	+ # naver_cafe_scrapper("도개면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	182	+ # naver_cafe_scrapper("장천면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	183	+ # naver_cafe_scrapper("무을면", start_date="2023-10-23", end_date="2023-10-31", interval=30, browser_thread_count=1)
	184	+ # naver_cafe_scrapper("해평면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	185	+ # naver_cafe_scrapper("옥성면", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
	186	+ naver_cafe_scrapper("구미 송정동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=2)
	187	+ naver_cafe_scrapper("원평동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=2)
	188	+ naver_cafe_scrapper("구미 지산동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=2)
	189	+ naver_cafe_scrapper("도량동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=2)
	190	+ naver_cafe_scrapper("선주원남동", start_date="2022-01-01", end_date="2023-10-31", interval=10, browser_thread_count=2)
209	191	naver_cafe_scrapper("신평1동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
210	192	naver_cafe_scrapper("신평2동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)
211	193	naver_cafe_scrapper("형곡1동", start_date="2022-01-01", end_date="2023-10-31", interval=30, browser_thread_count=1)

Delete comment