爬取豆瓣短評,劉若英編劇的影片《后来的我们》發現真愛是這種的

 

所以並非每一次都要驗證碼的,假如不須要驗證碼,我們能略過這一步

通過試探曉得:豆瓣影評人設置職權,沒有登陸如果,只能夠看見後面的幾十條短評,並且登錄的這時候須要輸出驗證碼。而且考慮採用

2).把評論家制作成詞雲圖

登陸成功之後,接著我們就能通過搜索框搜索《后来的我们》,步入詳情頁,隨即步入短評列表

分析一下短評列表的頁面元素,接著用xpath找出短評的列表每一評論家的具體內容

數據挖掘只不過是最精采的地方,用數據來說故事情節,玩數據挖掘的庫有許多。比如說能用matplotlib,pandas,sns或是Tableau,也能用互動性較為好的js庫,這兒用騰訊的自由軟件庫echart來處理,較為便利簡單。

總共有24頁,我們直接直觀的循環爬取

用selenium 爬取數據

1).登入方式

今年劉若英的電影《后来的我们》公映了,堅信大家有點兒小期盼吧,不曉得看完了之後,有多少小夥伴想起了前塵往事,即便大家都年長過,特別是影片的主題歌《我们》,不曉得聽哭了多少人。電影能否跟曲目一樣深入人心,懷著這種的一種心情,我們一起來分析一下它的影評人吧。

4).進行翻頁,接著重新以獲取短評信息

驗證碼的解析,我們這兒用一種較為原始的方式

接著用人眼解析,接著在input輸出

、感嘆

我們首先用selenium找出驗證碼的照片,接著留存下來

要點:

從圖中能窺見短評中最暢銷的大概有2500票,並且絕大部分集中在後排,(這是前面沒有多少人看,而且點贊少嘛?) 認為後排很關鍵呀

“再後來,我什么都有了,卻獨獨沒有了我們”。 希望我們好好珍視。

3).步入詳情網頁

也許是主題歌提早預熱了市場,讓觀眾們的期望值變高了,《后来的我们》在豆瓣上的打分只有6.2分,並且現在又發生了退票該事件。 單就影片而言,感覺還是能的。或許是豆瓣的使用者眼光有點兒高了。

3).統計數據一下贊成數前十的評論家

1).看一下點贊數

真愛有一種結局,就是後來的我們,只能從戀人變為愛了好久的好友。 影片裡有句很扎心的文案,

2).以獲取驗證碼

02.數據直觀分析

來獲取數據。 登錄時須要的驗證碼,通過留存照片,接著手動輸入

我們用web自動化神器selenium來模擬登入,接著找出username和passwd框,輸出我們用的賬號和密碼就可以。

找出文檔搜索框inp-query,接著輸出"後來的我們",接著點擊搜索按鍵,以獲取短評的列表。

js的代碼非常簡單,直接構造一個json文件格式的數據列表

4).查看具體短評的內容

而且構造三個方式,先登入,接著以獲取驗證碼,但是驗證碼並非每次都須要的

01.爬取數據

文章標簽   後來的我們 我們