從品牌網(wǎng)站建設(shè)到網(wǎng)絡(luò)營(yíng)銷(xiāo)策劃,從策略到執(zhí)行的一站式服務(wù)
來(lái)源:公司資訊 | 2021.08.17
闡明一下,我的這篇文章沒(méi)有太多的技能含量,最多只要一些的技能總結(jié),剩下的是我這幾個(gè)月算是本身經(jīng)歷吧,但是沒(méi)跑題啊,仍是跟爬蟲(chóng)技能的先關(guān)的,不喜歡能夠關(guān)了哈,來(lái)都來(lái)了就看看唄,沒(méi)準(zhǔn)能夠協(xié)助你呢,哈哈謝謝你~
你好啊,歡迎你點(diǎn)進(jìn)來(lái)聽(tīng)我吹牛皮,哈哈哈哈開(kāi)玩笑,我依舊是那個(gè)帶你們走向更影響更驚險(xiǎn)的楊旭華,從最終一次寫(xiě)博客到現(xiàn)在有三個(gè)多月了,是從2021-02-15 16:48:37最終一篇到現(xiàn)在重新寫(xiě)作,嗯立刻就三個(gè)月半了
嗯我先廢話(huà)一會(huì),湊個(gè)字?jǐn)?shù),不想看的,能夠直接傳送車(chē),下面有我總結(jié)的爬蟲(chóng)面試題,絕對(duì)的實(shí)在面試題,親身經(jīng)歷哈哈哈哈 看見(jiàn)沒(méi)點(diǎn)這飛曩昔
或許會(huì)有很多人好奇為什么這么長(zhǎng)時(shí)刻不更新,忙? 沒(méi)空? ,其實(shí)都不是,我不忙也不是沒(méi)空,也不是懶得不想寫(xiě)(咳~其實(shí)便是嘿嘿…)
先說(shuō)說(shuō)我這幾個(gè)月在干嘛吧,由于我是學(xué)生哈,從我最終一次寫(xiě)文章開(kāi)始應(yīng)該是年的大年初四,一直到初八初九吧,我其實(shí)在家,走親屬什么的,今日那個(gè)親屬來(lái),明天這個(gè)親屬來(lái),橫豎便是待客嘛,也就放飛自我了,不想寫(xiě)文章
然后到后面便是跟小兄弟哥們們一塊玩玩玩,其實(shí)從元旦就開(kāi)始玩哈哈哈哈,后面有幾天我陪我女朋友玩了一星期(沒(méi)想到吧我還有女朋友),害便是她上班,我玩我的,下了班一同吃飯玩啥的,由于她上班的早,就這樣到了3月1號(hào),我回家了
從回家開(kāi)始我就直接開(kāi)始找作業(yè)了,我找的便是爬蟲(chóng)方向的作業(yè),由于是實(shí)習(xí)生,并且爬蟲(chóng)作業(yè)又特別少(實(shí)習(xí)崗位),加上疫情的原因,導(dǎo)致我找作業(yè)十分不順利
我真的是找了整整一個(gè)月半,給咱們看一下我的boss直聘截圖,我怎樣記住之前是快四百多交流了呢
這個(gè)還只是我在這個(gè)軟件上的記錄,還有用到過(guò)的拉鉤招聘、實(shí)習(xí)生、智聯(lián)招聘、獵聘、前程無(wú)憂(yōu)等等,但但凡我符合招聘要求的,我全部投了,真是海投,成果收到的回復(fù)沒(méi)有幾個(gè),面試更是寥寥無(wú)幾,真的是體會(huì)到社會(huì)的毒打了,我大約算了一下,這幾個(gè)軟件一共我交流加投簡(jiǎn)歷差不多有快1000了吧,首要是boss和拉鉤,有的便是讀了你的音訊不回你,要么沒(méi)看音訊也不回你,要么便是聊得好好的人沒(méi)了,要么便是。。。。。哎橫豎便是各種奇葩
再后來(lái)便是找到幾家家愿意讓我去實(shí)習(xí)的公司,橫豎要么便是我看不上,要么便是看不上我,我記住有家公司大廠(chǎng)大廠(chǎng)大廠(chǎng) 我面試經(jīng)過(guò)了,然后讓我等offer,最終又通知我面試一次,最終就跟我說(shuō)沒(méi)經(jīng)過(guò),醉了醉了,真是無(wú)奈,估量便是被別人頂了
重點(diǎn)啦:主張?jiān)蹅?,等一家公司的offer的時(shí)分不要傻傻的真的等,接著面,假如失約了,你就game over了
最終的最終,我到了我現(xiàn)在這家公司,首要做人工智能這方面,是在汽車(chē)上做項(xiàng)目,這個(gè)我覺(jué)得仍是國(guó)內(nèi)少有的,它是一個(gè)小公司,人數(shù)寥寥無(wú)幾,我在這里也不是做爬蟲(chóng)了,便是深度學(xué)習(xí)工程師,害首要便是找找數(shù)據(jù)集,然后訓(xùn)練model作業(yè)悠閑的很
正文Action
好了廢話(huà)說(shuō)的也不少了接下來(lái)給就談?wù)務(wù)娴膶?zhuān)業(yè)知識(shí),爬蟲(chóng),相信看過(guò)我的文章的人都知道,我寫(xiě)爬蟲(chóng)的時(shí)分,有時(shí)分會(huì)寫(xiě)這個(gè)東西,由于我怕有的人學(xué)了爬蟲(chóng)回去搞一些事情出來(lái),在這里算是善意的提示吧
所以面對(duì)監(jiān)獄編程,你真的符合嗎??
干這一行的都知道這幾年有很多個(gè)正正經(jīng)經(jīng)的案例,便是哪個(gè)哪個(gè)公司程序員寫(xiě)了爬蟲(chóng)代碼,最終導(dǎo)致爬進(jìn)了監(jiān)獄,這些案例是實(shí)在存在的,雖然現(xiàn)已曩昔好久但只要是一提起來(lái)仍是覺(jué)得十分影響的
那咱們來(lái)談?wù)劷袢盏闹黝},你真的能爬進(jìn)監(jiān)獄嗎?我想這個(gè)問(wèn)題,沒(méi)有正常的答復(fù),你能說(shuō)你進(jìn)不去嗎,假如呢,你把人家服務(wù)器給爬崩了,嗯你便是技能這么好,他們的服務(wù)器裝備便是這么低這么爛
但是你真的能進(jìn)去嗎?我相信你們是由于我文章的標(biāo)題進(jìn)來(lái)的,大多數(shù)或許出于好奇,甚至都不明白爬蟲(chóng),心抱負(fù):我編個(gè)程,怎樣就進(jìn)監(jiān)獄了,有很多看博客的都是這個(gè)心里
那接下來(lái)咱們從技能分析一下,你至少要寫(xiě)成什么樣的爬蟲(chóng),才有或許爬進(jìn)監(jiān)獄
先從最根底的程序設(shè)計(jì)說(shuō)起:
requests懇求
User-Agent假裝
re/xpath解析數(shù)據(jù)
mysql/mongo存儲(chǔ)
有了這些,恭喜你有了半只腳踏進(jìn)了監(jiān)獄,哈哈哈定心早著呢
進(jìn)階:
Selenium+Chrome/Firefox
多線(xiàn)程/多進(jìn)程爬蟲(chóng)
Proxies署理
操控臺(tái)抓包
js逆向/js分析改寫(xiě)
ajax懇求破解
分布式爬蟲(chóng)
進(jìn)階已完成,咱們更近了一步
高級(jí)進(jìn)階:
scrapy結(jié)構(gòu)
周期性計(jì)劃任務(wù)
機(jī)器視覺(jué)與tesseract
Fiddler抓包工具
移動(dòng)端app數(shù)據(jù)抓取
高級(jí)進(jìn)階后,現(xiàn)已沒(méi)什么能夠阻擋你的腳步了,兄弟,Prison離你更近了哈哈哈
真的嗎?
當(dāng)然不或許,只會(huì)這點(diǎn)只能說(shuō)你很厲害了,真正足以讓你進(jìn)到監(jiān)獄的是Robots協(xié)議,還有一些不行操控的東西,就像是咱們上面說(shuō)的,你把人家服務(wù)器搞崩了,網(wǎng)站也搞的運(yùn)營(yíng)不起來(lái)了,以及你把人家的私有的數(shù)據(jù)爬下來(lái)賣(mài)給了他人等等,這些假如你違反了,你必然會(huì)遭到懲罰,所以,不要不要不要去做死,假如你覺(jué)得你足夠幸運(yùn),我祝你Bon voyage,Safe and sound
敲黑板劃重點(diǎn): 接下來(lái)給咱們總結(jié)了一下我今年面試的題:
1、Python中__init__ 和__new__的差異
2、整個(gè)爬蟲(chóng)的作業(yè)流程(怎么運(yùn)作)
3、http的響應(yīng)碼(最好是記住200到500狀態(tài)每個(gè)的前三個(gè))
4、進(jìn)程、線(xiàn)程、協(xié)程的差異
5、多線(xiàn)程和多進(jìn)程介紹一下
6、怎么完成多進(jìn)程和多線(xiàn)程
7、python并發(fā)和并行
8、redis數(shù)據(jù)庫(kù)的業(yè)務(wù)
9、redis的五大數(shù)據(jù)類(lèi)型
10、redis的有序集合
11、mysql 數(shù)據(jù)庫(kù)的索引
12、mysql數(shù)據(jù)庫(kù)中怎么給用戶(hù)權(quán)限
13、Linux檢查磁盤(pán)命令以及磁盤(pán)占用命令
14、Linux檢查內(nèi)容使用情況命令
15、命令行怎么完成對(duì)一個(gè)文件的去重
16、Python的內(nèi)存管理機(jī)制
17、Python的可變數(shù)據(jù)類(lèi)型和不行變數(shù)據(jù)類(lèi)型
18、Python 中類(lèi)辦法、類(lèi)實(shí)例辦法、靜態(tài)辦法有何差異?
19、map 函數(shù)
20、解釋一下什么是閉包?
21、函數(shù)裝修器的了解
22、Python生成器的原理
23、Python 的魔法辦法
24、正則里match 與search 的差異?
25、url 的方式?
26、varchar 與char 的差異?
27、常見(jiàn)的反爬蟲(chóng)和應(yīng)對(duì)辦法?
28、驗(yàn)證碼的處理?
29、描繪下scrapy 結(jié)構(gòu)運(yùn)行的機(jī)制?
30、scrapy五大核心組件介紹一下,分別是做什么用
31、怎樣完成棧
32、深復(fù)制,淺復(fù)制的差異?
33、Linux檢查某個(gè)進(jìn)程占用的端口號(hào)
34、有一個(gè)數(shù)組,取出第三大的數(shù)字,要求時(shí)刻復(fù)雜度為O(n),請(qǐng)問(wèn)怎么完成
35、目標(biāo):對(duì)指定網(wǎng)站進(jìn)行數(shù)據(jù)抓取
要求:編撰爬蟲(chóng)戰(zhàn)略調(diào)研報(bào)告
1、列明遇到困難,處理問(wèn)題辦法、戰(zhàn)略或主張
2、時(shí)刻1小時(shí)。
內(nèi)容:
網(wǎng)址:https://www.zcygov.cn,該網(wǎng)站浙江省和重慶市商品信息(能夠測(cè)驗(yàn)?zāi)愁?lèi)商品)。
抓取信息如下:
36、這個(gè)是一家公司給我的爬蟲(chóng)任務(wù),算是一個(gè)測(cè)驗(yàn)吧
下面的是一家公司的筆試題,但是我沒(méi)做,由于我是實(shí)習(xí)生,肯定是做的話(huà)得費(fèi)點(diǎn)力
37、輸入一哥字符串,回來(lái)字符串倒序后的成果
38、寫(xiě)一個(gè)函數(shù),該函數(shù)用來(lái)判別一個(gè)字符串是否為IP地址
39、HTTP協(xié)議的懇求報(bào)文共有哪幾個(gè)組成部分
40、請(qǐng)列出常見(jiàn)的排序算法都有什么,以及它們的平均時(shí)刻復(fù)雜度都是多少
41、現(xiàn)有一個(gè)大文件demo.txt,至少超過(guò)10G,在內(nèi)存有限的情況下(低于2G),判別目標(biāo)字符串”csdn”在文件中出現(xiàn)的次數(shù)