????? 之前斷斷續續的在輕博客點點【 http://cphmvp.diandian.com/ 】 寫下些有關java,爬蟲,正則,?硬件服務器的一些工作中用到的,
比較喜歡點點的域名個性定制,今期想把15個月的爬蟲工作學習資料整理下,發現在點點上排版有些蹩腳,特別是代碼顯示上。尋思了
幾天,終于找著一個適合it程序猿記錄,分享技術的博客。
????? 有點遲,但希望還不晚。我是一名90后,在it這個一腳探下去不知道深淺的行業里,待了才剛一年半。在技術上,一直在做各種爬蟲,
很少用nutch、heritrix 這些牛氣的開源爬蟲,從開始接觸爬蟲的時候就開始定位的思想就是自己構建的感覺可控性強些。做的過程中,
慢慢發現了解 nutch ,heritrix 的架構 實現還是很有啟發的,比如現在我們團隊做的一個爬蟲產品,里融合的有nutch和heritrix的設計
思想 ,(閑下來會陸續好好拜讀下,詳細的源碼)。 自己寫爬蟲有個無可比擬的好處就是,針對性定向開發,會很快,一些業務的邏輯
比較容易較好的在爬取過程中進行融合,對付一些較為特殊的 異步數據請求,動態頁面,登錄 ,使用起來就靈活的多。
每一個做coding 的程序猿都希望在某一個領域成為大牛,提起來像黑客 那樣的NB感覺, 個人覺得技術很重要,但絕對不是最重要的
(上家公司教會我的)。 但在這個行業里的初始兩年最好能埋下頭好好專研下技術還是很有必要的,有些東西(像轉管理),可以不那么急,
這樣的路線會更覺得穩健。 我主攻的方向是網絡爬蟲 crawler,工作的過程中,數據庫接觸的oracle最多。在此基礎上個人對oracle數據庫的
系統架構,管理機制 ,有很強的興趣,也使得我今年初的時候,選報了一個培訓,在8、9月份的時候考取了一個ocp的認證。 所以在該博客
空間上,會逐漸學習,把我理解的(不正確的歡迎指正交流)爬蟲方面,oracle維護方面,記錄下來,分享給大家。
???? coding ,很苦逼。無論怎樣的環境,怎樣的現在,盯緊心中的夢想,一步一步靠近就好。
?
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
