国产欧美日韩在线播放_夜夜春亚洲嫩草影视日日摸夜夜添夜_中文字幕久久综合_国产精品美女网站_性欧美精品一区二区三区在线播放 _91网免费观看_欧美大秀在线观看_91九色在线视频_久草一区二区_一本色道婷婷久久欧美

python爬蟲開發(fā)實(shí)例-爬取通遼當(dāng)?shù)啬尘W(wǎng)站的招聘信息

二次開發(fā) admin 發(fā)布時(shí)間:2026-01-12 16:27:05 瀏覽:
Python的功能很強(qiáng)大,特別是爬蟲功能。下面以爬取通遼當(dāng)?shù)啬尘W(wǎng)站的招聘欄目為例,具體講解Python爬蟲開發(fā)的過程。
 
import requests
import re
import time
from urllib.parse import urljoin
from collections import defaultdict

# 配置請(qǐng)求頭,模擬瀏覽器訪問
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8'
}

# 存儲(chǔ)已爬取的信息,用于去重
processed_data = defaultdict(str)


def get_page_content(url):
    """
    獲取頁面內(nèi)容,處理請(qǐng)求異常
    """
    try:
        response = requests.get(url, headers=HEADERS, timeout=10)
        response.raise_for_status()  # 拋出HTTP錯(cuò)誤
        response.encoding = 'utf-8'  # 該網(wǎng)站使用gb2312編碼
        return response.text
    except requests.exceptions.RequestException as e:
        print(f"請(qǐng)求頁面 {url} 失敗: {e}")
        return None


def extract_links(main_url):
    """
    從主頁面提取所有招聘詳情頁鏈接
    """
    html = get_page_content(main_url)
    if not html:
        return []

    # 匹配詳情頁鏈接的正則表達(dá)式
    # link_pattern = re.compile(r'href="(\.\./gqxx/showfabus\.asp\?dadid=\d+&fa=4)"')
    link_pattern = re.compile(r'href="([^"]*showfabus\.asp[^"]*)"', re.I)
    links = link_pattern.findall(html)

    # 拼接完整URL
    full_links = [urljoin(main_url, link) for link in links]
    print(f"找到 {len(full_links)} 個(gè)招聘詳情頁鏈接")
    return full_links


def extract_job_info(html):
    """
    從詳情頁提取招聘內(nèi)容和電話號(hào)碼
    """
    if not html:
        return None, None

    # 提取招聘主要內(nèi)容(去除多余標(biāo)簽)
    content_pattern = re.compile(r'<span class="sf3">(.*)</span>', re.S)
    content_match = content_pattern.search(html)
    print(content_match)
    job_content = ""
    if content_match:
        # 去除HTML標(biāo)簽
        job_content = re.sub(r'<.*?>', '', content_match.group(1))
        # 去除多余空格和換行
        job_content = re.sub(r'\s+', ' ', job_content).strip()
    print(job_content)
    # 提取電話號(hào)碼(匹配手機(jī)號(hào)11位,座機(jī)號(hào)帶區(qū)號(hào)格式)
    # 第一步:匹配整個(gè)區(qū)間(兼容中英文括號(hào)、多余字符)
    range_pattern = re.compile(r'聯(lián)系電話[\s\S]*?[(\(]查看歸屬地[)\)]', re.S)
    range_match = range_pattern.search(html)

    if not range_match:

        phone_str ='空'

    else:
        # 第二步:在區(qū)間內(nèi)提取完整的手機(jī)號(hào)/座機(jī)號(hào)(修正后的規(guī)則)
        phone_pattern = re.compile(r'1[3-9]\d{9}|0\d{2,3}[-\s]?\d{7,8}')
        phone_list = phone_pattern.findall(range_match.group())
        #print("電話match:" + phone_matches)
        if phone_list:

            print(" | ".join(phone_list))
            # 去重并合并電話號(hào)碼
            phone_numbers = list(set(phone_list)) if phone_list else []
            phone_str = ' | '.join(phone_numbers) if phone_numbers else "未找到電話號(hào)碼"
            print("電話:" + phone_str)
        else:
            phone_str = '空'




    return job_content, phone_str


def save_to_file(filename, data):
    """
    將去重后的信息寫入文件
    """
    with open(filename, 'w', encoding='utf-8') as f:
        for idx, (phone, content) in enumerate(data.items(), 1):
            f.write(f"======== 招聘信息 {idx} ========\n")
            f.write(f"電話號(hào)碼: {phone}\n")
            f.write(f"招聘內(nèi)容: {content}\n")
            f.write("\n" + "-" * 50 + "\n\n")
    print(f"信息已保存到 {filename} 文件,共 {len(data)} 條去重后的招聘信息")


def main():
    # 目標(biāo)主頁面URL
    main_url = "http://www.tlxxw.com/gqxx/showfabu.asp?fa=4"
    # 輸出文件名
    output_file = "job.txt"

    # 1. 提取所有詳情頁鏈接
    detail_links = extract_links(main_url)
    if not detail_links:
        print("未找到任何招聘詳情頁鏈接")
        return

    # 2. 遍歷每個(gè)鏈接提取信息
    for idx, link in enumerate(detail_links, 1):

        link = link.replace('&amp;', '&')
        print(f"\n正在爬取第 {idx}/{len(detail_links)} 個(gè)鏈接: {link}")
        html = get_page_content(link)
        # print(html)

        if html:
            job_content, phone = extract_job_info(html)
            print(job_content)
            # 去重:以電話號(hào)碼為鍵(無號(hào)碼則用內(nèi)容摘要)
            key = phone if phone != "未找到電話號(hào)碼" else job_content[:50]
            if key and job_content:
                processed_data[key] = job_content

        # 延時(shí)1秒,避免請(qǐng)求過快被封IP
        time.sleep(1)

    # 3. 保存去重后的信息到文件
    save_to_file(output_file, processed_data)


if __name__ == "__main__":
    main()

爬取后寫入txt文件。下面是結(jié)果的一部分內(nèi)容:

======== 招聘信息 3 ========
電話號(hào)碼: 1327485672
招聘內(nèi)容: 同樂發(fā)飲用水誠聘配送人員 身體健康,勤奮刻苦,敬業(yè)愛崗 保底5000以上加提成 自帶電動(dòng)車,多勞多得 電話:13274856722 15248339633

--------------------------------------------------

======== 招聘信息 4 ========
電話號(hào)碼: 1874759588
招聘內(nèi)容: 世紀(jì)良緣禮儀公司高薪誠聘: 崗位一:婚禮策劃師 工資待遇:4000元―――12000元。 工作描述:向準(zhǔn)新人介紹婚禮慶典服務(wù)項(xiàng)目,并達(dá)成協(xié)議.全程策劃實(shí)施婚禮慶典全過程.有無工作經(jīng)驗(yàn)均可,公司提供一對(duì)一專業(yè)培訓(xùn).要求口才好應(yīng)變能力強(qiáng),有敬業(yè)精神,有文化底蘊(yùn),能長期從事此項(xiàng)工作。有過銷售或教師,導(dǎo)游,企劃人員等從業(yè)經(jīng)驗(yàn)者。會(huì)運(yùn)用電腦PS者。 崗位二:平面設(shè)計(jì)師:(熟練使用各種設(shè)計(jì)類軟件。)工資面議。 聯(lián)系人:18747595885

--------------------------------------------------

======== 招聘信息 5 ========
電話號(hào)碼: 1556759999
招聘內(nèi)容: 招聘單位:鉑愛美容會(huì)館 招聘崗位:美容師美體師 薪資待遇:月薪5000元 員工待遇:包吃包住 招聘要求:有經(jīng)驗(yàn)者 聯(lián)系人:王院長 聯(lián)系電話:15567599999

--------------------------------------------------

可以看出還有一些瑕疵,比如電話號(hào)碼少一位。也可以繼續(xù)增加功能,比如把爬取的內(nèi)容寫入數(shù)據(jù)庫等,可以繼續(xù)完善。
另外做爬蟲主要是對(duì)正則表達(dá)式要比較熟悉,可以用下面的網(wǎng)站在線調(diào)試正則
https://regex101.com/
很方便,可以把網(wǎng)頁代碼復(fù)制進(jìn)去,然后寫正則,會(huì)顯示匹配結(jié)果。

如果需要開發(fā)爬蟲,可以聯(lián)系我QQ:804752009 


在線咨詢

點(diǎn)擊這里給我發(fā)消息售前咨詢專員

點(diǎn)擊這里給我發(fā)消息售后服務(wù)專員

在線咨詢

免費(fèi)通話

24h咨詢:0475-2793529


如您有問題,可以咨詢我們的24H咨詢電話!

免費(fèi)通話

微信掃一掃

微信聯(lián)系
返回頂部
国产欧美日韩在线播放_夜夜春亚洲嫩草影视日日摸夜夜添夜_中文字幕久久综合_国产精品美女网站_性欧美精品一区二区三区在线播放 _91网免费观看_欧美大秀在线观看_91九色在线视频_久草一区二区_一本色道婷婷久久欧美
在线视频观看日韩| 嫩草伊人久久精品少妇av杨幂| 97欧美在线视频| 久久亚洲风情| 久久精品国产99国产| 午夜精品网站| 成人片免费看| 久久精品999| 日韩免费一区| 欧美精品中文| 日本不卡视频在线| 99成人超碰| 成人三级高清视频在线看| 久久国产三级| 日韩视频一区| 一区二区三区四区在线看| 美女性感视频久久| 国产午夜久久av| 日韩精品欧美大片| 美女被久久久| 久久国产99| 亚洲三级av| 亚洲制服一区| 另类av一区二区| 亚洲日产国产精品| 日韩欧美精品一区二区综合视频| 石原莉奈一区二区三区在线观看| 99在线精品视频在线观看| 激情久久久久久| 亚洲二区免费| 欧美91视频| 99视频一区| 蜜桃免费网站一区二区三区| 视频在线观看国产精品| 亚洲在线久久| 国产精品乱战久久久| 国产一区二区视频在线看| 国产成人免费精品| 国产精品久久久久久久久妇女| www.九色在线| 99久久亚洲精品蜜臀| 免费视频亚洲| 日韩在线视频一区二区三区| 91精品国产一区二区在线观看| 国产精品麻豆成人av电影艾秋| 成人国产精品久久| 欧美日韩精品在线一区| 蜜桃视频第一区免费观看| 国产调教精品| 水蜜桃精品av一区二区| 女主播福利一区| 日韩一区二区三区精品| 国产精品极品| 亚洲成人va| 蜜桃视频一区二区| 国产精品亚洲片在线播放| zzzwww在线看片免费| 国产在线不卡| 欧美色综合网| 欧美二区视频| 国产精品多人| 日韩视频久久| 久久精品国产在热久久| 欧洲av不卡| 亚洲乱码视频| 国产精品麻豆久久| 丝瓜av网站精品一区二区| 精品久久美女| 99在线观看免费视频精品观看| 18国产精品| 91精品一区二区三区综合在线爱| 97se亚洲| 久久www成人_看片免费不卡| 欧美www视频在线观看| 麻豆成人在线| 日韩欧美一区二区三区在线视频| 中文字幕日韩欧美精品高清在线| 免费观看亚洲| 欧美日韩一区二区三区不卡视频| 国产伊人精品| 国产精品二区不卡| 日韩不卡一区二区三区 | 久久午夜视频| 久久久久91| 久久一区亚洲| 日本99精品| 一区二区三区四区在线观看国产日韩| www.九色在线| 久久亚洲国产精品尤物| 日韩激情综合| 麻豆成人在线| 狠狠干成人综合网| 久久青草久久| 日韩理论片av| 国产 日韩 欧美 综合 一区| 日韩国产欧美一区二区三区| 欧美精品黄色| 久久一区二区三区电影| 日韩精品诱惑一区?区三区| 国产精品视频一区二区三区综合| 视频一区二区三区入口| 午夜国产精品视频| 亚洲大片在线| 欧美日韩精品在线一区| 三级小说欧洲区亚洲区| 理论片午夜视频在线观看| 久久不卡国产精品一区二区| **爰片久久毛片| 97久久亚洲| 国产精品一区三区在线观看| 午夜日韩影院| 日韩精品久久久久久久软件91| 美女久久一区| 亚洲91在线| 欧美久久久网站| 麻豆一区二区99久久久久| 日韩不卡一区二区三区| 日韩国产欧美一区二区三区| 日本一区中文字幕| 国产香蕉精品| 精品网站999| 极品av在线| 成人羞羞视频播放网站| 久久影视一区| 视频一区欧美精品| 亚洲va久久久噜噜噜久久| 日韩激情一二三区| 国模精品一区| 婷婷激情久久| 亚洲免费婷婷| 日韩欧美中文在线观看| 欧美日韩夜夜| 国产欧洲在线| 国产视频一区免费看| 日韩亚洲精品在线观看| 精品国产一区二区三区噜噜噜| 日韩成人精品一区二区| 久久美女精品| 亚洲综合精品| 久久99影视| 欧美a级片一区| 日韩中文字幕区一区有砖一区| 综合欧美精品| 精品三区视频| av不卡免费看| 牛牛精品成人免费视频| 久久精品卡一| 日本在线不卡视频一二三区| 国产成人免费精品| 国产精品社区| 精品午夜视频| 亚洲一区国产一区| 麻豆精品一区二区综合av| 免费视频国产一区| 欧美另类中文字幕| 久久天堂精品| 日韩久久99| 亚洲婷婷免费| 国产精品麻豆成人av电影艾秋 | 99在线精品免费视频九九视| 青草久久视频| 99久精品视频在线观看视频| 日本va欧美va精品发布| 三级精品视频| 国产欧美日韩综合一区在线播放| 精品久久影院| 日韩一区中文| 亚洲午夜精品久久久久久app| 欧美久久久网站| 亚洲精品在线观看91| 久久麻豆视频| 四虎精品一区二区免费| 国产精品99免费看| 国产成人在线中文字幕| 在线一区二区三区视频| 日韩精品欧美| 久久精品国产久精国产爱| 丝袜诱惑制服诱惑色一区在线观看| 久久精品国产久精国产爱| 免费观看在线综合色| 91精品亚洲| 成人日韩av| 国产日韩欧美一区| 日本中文字幕一区二区| 在线一区免费| 99久久精品网| av在线日韩| av高清不卡| 成午夜精品一区二区三区软件| 日韩国产欧美视频| 久久国产精品久久w女人spa| 欧美~级网站不卡| 日韩一区二区在线免费| 国产一区二区三区视频在线| 国产精品美女久久久久久不卡| 日韩欧美在线精品| 亚洲1区在线观看| 国产农村妇女精品一二区| 欧美高清一区| 日韩网站在线|