找回密碼 或 安全提問
 註冊
|註冊|登錄

伊莉討論區

搜索
伊莉需要你的贊助和支持儲值後自動升級用戶組認識好友、聊天,分享生活趣事
mg蘿莉三上悠亞cosplay母乳中文
聖女戰旗東方神起snis 977fc2 ppv秋乃シモlust aca虚魂剣

休閒聊天興趣交流學術文化旅遊交流飲食交流家庭事務PC GAMETV GAME
熱門線上其他線上感情感性寵物交流家族門派動漫交流貼圖分享BL/GL
音樂世界影視娛樂女性頻道潮流資訊BT下載區GB下載區下載分享短片
電腦資訊數碼產品手機交流交易廣場網站事務長篇小說體育運動時事經濟
上班一族博彩娛樂

[繁]因為不是真正的夥

[繁/無修正]夢想成為

中國盛產這種小畜生

[繁/無修正]夢想成為

[繁]迷宮飯09-

[繁/無修正]魔都精兵
電腦新資訊電腦軟體討論電腦軟體資訊分享電腦硬體討論電腦硬體資訊分享電腦萌化版電腦系統 OS 討論電腦程式設計
電腦設計技術交流圖像設計及交流各類下載工具教學寬頻上網討論
查看: 7750|回復: 12

[原創] 爬圖程式碼免費教學和分享(可直接使用)[複製鏈接]

  小學生(200/1000)

《我的空間,進來就出不去,歡迎挑戰^^》

Rank: 2Rank: 2

帖子
452
積分
201 點
潛水值
9544 米
發表於 2017-2-6 01:24 AM|顯示全部樓層
本帖最後由 eyny0426 於 2017-2-12 10:38 PM 編輯

各位看官,新年快樂~



基於過年和朋友聚一聚、嘴砲來嘴砲去的緣由...就莫名其妙寫出了這隻小程式
事不宜遲,趕緊放上爬某『單一』個相簿...
瀏覽完整內容,請先 註冊登入會員
附件: 你需要登錄才可以下載或查看附件。沒有帳號?註冊

使用道具檢舉

Rank: 2Rank: 2

帖子
585
積分
999 點
潛水值
30763 米
發表於 2017-2-11 12:22 AM|顯示全部樓層
若有安裝色情守門員,可用無界、自由門等軟件瀏覽伊莉。或使用以下網址瀏覽伊莉: http://www.eyny.com:81/index.php

使用道具檢舉

  小學生(200/1000)

《我的空間,進來就出不去,歡迎挑戰^^》

Rank: 2Rank: 2

帖子
452
積分
201 點
潛水值
9544 米
發表於 2017-2-11 06:46 PM|顯示全部樓層
若新密碼無法使用,可能是數據未更新。請使用舊密碼看看。
sc79891am 發表於 2017-2-11 12:22 AM
下載: 訪客無法瀏覽下載點,請先 註冊登入會員

可以做看看dcard的爬圖程式嗎

網路上有很多爬dcard的教學文...
所以我不太懂您是要爬dcard的文章還是圖片還是什麼呢...
瀏覽完整內容,請先 註冊登入會員
成為伊莉的版主,你將獲得更高級和無限的權限。把你感興趣的版面一步步地發展和豐盛,那種滿足感等著你來嚐嚐喔。

使用道具檢舉

Rank: 2Rank: 2

帖子
585
積分
999 點
潛水值
30763 米
發表於 2017-2-19 07:17 PM|顯示全部樓層
eyny0426 發表於 2017-2-11 06:46 PM
下載: 訪客無法瀏覽下載點,請先 註冊登入會員

網路上有很多爬dcard的教學文...
所以我不太懂您是要爬dcard的文章還是圖片還是什麼呢 ...

有辦法爬每天抽到的卡片彙整到一個資料夾嗎...
瀏覽完整內容,請先 註冊登入會員
若對尊貴或贊助會員有任何疑問,歡迎向我們查詢。我們的即時通或MSN: admin@eyny.com

使用道具檢舉

帖子
14
積分
6 點
潛水值
710 米
發表於 2017-4-2 08:25 PM|顯示全部樓層
如果你忘記伊莉的密碼,請在登入時按右邊出現的 '找回密碼'。輸入相關資料後送出,系統就會把密碼寄到你的E-Mail。
小弟是Python新手,最近在研究dcard跟爬蟲
感謝分享~




點評

eyny0426 不客氣~ 我也是新手 哈哈  發表於 2017-4-3 11:54 AM
若瀏覽伊莉的時侯發生問題或不正常情況,請使用Internet Explorer(I.E)。

使用道具檢舉

帖子
418
積分
187 點
潛水值
11333 米
發表於 2017-7-10 12:00 PM|顯示全部樓層
我套件都裝好了
用你給的程式都抓不套圖
這是什麼問題??
下載: 訪客無法瀏覽下載點,請先 註冊登入會員

會顯示ERROR
系統已重置禁訪用戶到普通用戶和密碼一次

使用道具檢舉

  小學生(200/1000)

《我的空間,進來就出不去,歡迎挑戰^^》

Rank: 2Rank: 2

帖子
452
積分
201 點
潛水值
9544 米
發表於 2017-7-11 04:14 PM|顯示全部樓層
若有安裝色情守門員,可用無界、自由門等軟件瀏覽伊莉。或使用以下網址瀏覽伊莉: http://www.eyny.com:81/index.php
q816697q 發表於 2017-7-10 12:00 PM
下載: 訪客無法瀏覽下載點,請先 註冊登入會員

我套件都裝好了
用你給的程式都抓不套圖
這是什麼問題??

那是正常
因為我使用try...catch
try...catch會抓出Beautifulsoup沒處理乾淨東西用[!]Error吐出來
...
瀏覽完整內容,請先 註冊登入會員

使用道具檢舉

帖子
418
積分
187 點
潛水值
11333 米
發表於 2017-7-17 01:43 PM|顯示全部樓層
若有安裝色情守門員,可用無界、自由門等軟件瀏覽伊莉。或使用以下網址瀏覽伊莉: http://www.eyny.com:81/index.php

使用道具檢舉

  小學生(200/1000)

《我的空間,進來就出不去,歡迎挑戰^^》

Rank: 2Rank: 2

帖子
452
積分
201 點
潛水值
9544 米
發表於 2017-7-24 11:57 PM|顯示全部樓層
若有安裝色情守門員,可用無界、自由門等軟件瀏覽伊莉。或使用以下網址瀏覽伊莉: http://www.eyny.com:81/index.php
q816697q 發表於 2017-7-17 01:43 PM
下載: 訪客無法瀏覽下載點,請先 註冊登入會員

那要怎麼改才能成功抓下來??
還不太會用

不是  那些是本來就不是可以抓的東西
因為我只把所有 圖片網址 抓出來
...
瀏覽完整內容,請先 註冊登入會員
若有安裝色情守門員,可用無界、自由門等軟件瀏覽伊莉。或使用以下網址瀏覽伊莉: http://www.eyny.com:81/index.php

使用道具檢舉

Rank: 1

帖子
575
積分
196 點
潛水值
14681 米
發表於 2017-7-26 01:06 AM|顯示全部樓層
本帖最後由 ren1244 於 2017-7-26 03:40 PM 編輯

其實是 urllib.urlretrieve 函式的問題
只要刪掉那行,就不會跑出error了
不過原程式是利用 urllib.urlretrieve 抓圖
既然這函式有問題(舊版本)就必須找其他函式來替代了

另外圖片的網址有些不是http或https開頭的也會出錯
遇到這種的,代表它前面跟原本的網站是同一網址
所以要再加上原網址
...
瀏覽完整內容,請先 註冊登入會員





分享使你變得更實在,可以使其他人感到快樂,分享是我們的動力。今天就來分享你的資訊、圖片或檔案吧。

使用道具檢舉

  小學生(200/1000)

《我的空間,進來就出不去,歡迎挑戰^^》

Rank: 2Rank: 2

帖子
452
積分
201 點
潛水值
9544 米
發表於 2017-7-27 12:40 PM|顯示全部樓層
回覆中加入附件並不會使你增加積分,請使用主題方式發佈附件。
ren1244 發表於 2017-7-26 01:06 AM
下載: 訪客無法瀏覽下載點,請先 註冊登入會員

其實是 urllib.urlretrieve 函式的問題
只要刪掉那行,就不會跑出error了
不過原程式是利用 urllib.urlretr ...

感謝大大的指點!!
...
瀏覽完整內容,請先 註冊登入會員
若對尊貴或贊助會員有任何疑問,歡迎向我們查詢。我們的即時通或MSN: admin@eyny.com

使用道具檢舉

Rank: 1

帖子
575
積分
196 點
潛水值
14681 米
發表於 2017-7-27 02:05 PM|顯示全部樓層
本帖最後由 ren1244 於 2017-7-27 02:11 PM 編輯

去看原始網頁內容,可以看到相簿的資訊長這樣
  1. <h3 class="xw0">
  2. <a href="thread-xxxxxxx-x-x.html" onclick="atarget(this)" title="標題文字">標題文字</a>
  3. </h3>
複製代碼
所以
  1. soup.find_all('h3',class_='xw0')
複製代碼
是找所有「標籤名稱為 h3 ,且符合 class="xw0"」的標籤
至於為什麼多一個底線,單純是 BeautifulSoup為了避開 python 的關鍵字「class」的緣故

另一段程式碼
  1. soup.find_all('img',attrs={'zoomfile':pat_not_empty})
複製代碼
是指找出「標籤名稱為 img ,且 zoomfile 屬性符合 pat_not_empty」的標籤
其中 pat_not_empty 是 Regular Expression:".+"
表示任意>=1個字元的字串

其實我是因為看到你的程式碼才去看 BeautifulSoup 是什麼東西
它的確在解析網頁挺方便的,我昨天也找了其他網站實驗

只是我發現 BeautifulSoup 對於非 utf-8 編碼的網頁
或是 html 標籤錯誤的網頁會有問題
例如這個網站:
下載: 訪客無法瀏覽下載點,請先 註冊登入會員

我用 BeautifulSoup 去找該討論區所有文章就會出錯
最後還是回到用 Regular Expression 解析...
瀏覽完整內容,請先 註冊登入會員

使用道具檢舉

帖子
9
積分
2 點
潛水值
2470 米
發表於 2017-8-30 09:12 PM|顯示全部樓層
若對尊貴或贊助會員有任何疑問,歡迎向我們查詢。我們的即時通或MSN: admin@eyny.com
我自己用的是python3.5,對於python2.7有點差
但對於抓網頁有編碼的問題,我一般是用urllib2這個模組的
  1. response = urllib2.urlopen(web_site_url)
  2. html = response.read().decode("utf-8", "ignore")
複製代碼
html就是用UTF8編碼導出的源始碼,再放入
  1. BeautifulSoup(html, "html.parser")
複製代碼
這只是我自己的習慣,還請各位大大指教
...
瀏覽完整內容,請先 註冊登入會員

點評

eyny0426 謝謝您的建議喔 ^^  發表於 2017-8-31 03:03 PM
若有安裝色情守門員,可用無界、自由門等軟件瀏覽伊莉。或使用以下網址瀏覽伊莉: http://www.eyny.com:81/index.php

使用道具檢舉

您需要登錄後才可以回帖 登錄 | 註冊

Powered by Discuz!

© Comsenz Inc.

重要聲明:本討論區是以即時上載留言的方式運作,對所有留言的真實性、完整性及立場等,不負任何法律責任。而一切留言之言論只代表留言者個人意見,並非本網站之立場,用戶不應信賴內容,並應自行判斷內容之真實性。於有關情形下,用戶應尋求專業意見(如涉及醫療、法律或投資等問題)。 由於本討論區受到「即時上載留言」運作方式所規限,故不能完全監察所有留言,若讀者發現有留言出現問題,請聯絡我們。有權刪除任何留言及拒絕任何人士上載留言,同時亦有不刪除留言的權利。切勿上傳和撰寫 侵犯版權(未經授權)、粗言穢語、誹謗、渲染色情暴力或人身攻擊的言論,敬請自律。本網站保留一切法律權利。
回頂部