快樂學習Python,資料分析方法獲取資料公共資料或爬蟲

Mondo 科技 更新 2024-02-01

學習python資料分析的第一步是先獲取資料,為什麼資料採集是資料分析的第一步,很明顯:資料分析,必須有資料才能分析。

作為個人,您如何獲得用於分析的資料集?

獲取資料集的第一種方法是獲取業內有人編譯的資料集。 目前,大資料行業持續火爆,資料本身已經成為乙個行業,其中自然包括資料集。 這些由某人組合在一起的資料集統稱為現成資料集。

現成的資料集可能有兩種型別:競爭資料集和行業資料集。

高水平資料分析大賽無疑是大資料行業普及的有力證明。 如今,資料分析競賽不再是簡單的資料分析師和資料科學家之間的競爭,而是演變為企業丟擲企業遇到的資料問題,獎勵各行各業的英雄來解決的平台,充滿了現實世界的挑戰。

主流資料分析大賽的賽題往往是主辦企業面臨的實際問題,資料集往往來源於主辦企業的真實資料,經過一定程度的脫敏後,面向所有參賽資料分析師開放。 在比賽中取得最佳成績的團隊將獲得豐厚的獎金,另一方面,他們貢獻的解決方案可以幫助公司找到後續業務發展的方向,最後,公司在大賽期間貢獻的資料集為資料分析愛好者和初學者提供了極好的學習資料, 可謂是一石三鳥。

作為資料初學者,我們自然可以去資料分析比賽,找到一些現成的資料集進行練習。 目前,資料分析競爭正在蓬勃發展,呈現出越來越多的趨勢。 目前,資料分析大賽中備受認可的賽事之一是國際卡格爾賽,另一場是國內的天池賽。

Kaggle可以說是所有資料分析大賽的鼻祖,是目前全球規模最大的資料分析大賽,但存在兩個問題:一是全英文**,二是國內接入速度慢。 總的來說,它對初學者不是很友好。 天池是目前國內最具影響力的賽事,整體平台的配置和資料集的豐富性都有保障,還有一系列的新手大賽幫大家入門。 這裡以天池平台為例,演示如何獲取大賽資料集。

1)訪問天池官網,使用**賬號註冊登入。

2)選擇“天池競賽-學習競賽”,進入學習題目列表。

3)向下滾動列表,選擇名為:初學者資料探勘 - 二手車交易***的二手車交易大賽

4)進入比賽詳情頁後,點選報名參加比賽。

5)點選左側的問題和資料進入資料集頁面,本頁頂部是資料集的**鏈結,以下是資料集的描述。

因為分析比賽的資料集會分為訓練集和測試集,我們現階段不需要關心這個,只要看訓練集(train.)就知道了。csv)。

除了比賽中使用的資料集外,個人還可以從一些行業公開資料中獲取資料進行分析。 以下是三個比較常用的,您可以簡單地參考它們。

1)清博智慧型:

清博智慧型是一家專注於新興行業的大資料服務,提供大量優質新渠道榜單,如微信、今日頭條、抖音等。 您只需要登入即可檢視,它支援Excel格式的**。

2)方天下房價指數:

顧名思義,這裡提供的資料集與房價有關,但資料均值是以**的形式提供的,而不是以excel的形式提供的。

3) 移動天文台:

移動天文台提供熱門手機應用程式的排名資料,一直是資料分析的熱門話題。 許多公司希望分析列表以捕捉使用者的最新興趣並調整其業務方向。 但遺憾的是,它和方天下一樣,移動天文台只提供網頁訪問,不提供Excel或CSV檔案。

無論是競爭資料集還是行業內的公共資料集,都存在明顯的不足。

競爭資料集:資料集脫敏,往往只能發現一些資料背後的隱藏關係,適合測試一些資料探勘演算法,對初級資料分析幫助不大。 行業公共資料集:絕大多數行業公共資料集只能提供網頁瀏覽或者pdf,基本沒有excel可以使用,只能觀看,很難在此基礎上自己做分析,免費使用者能看到的相對有限。 簡單來說,雖然個人可以獲取資料分析大賽的資料和一些行業資料**,但兩種渠道都存在一些問題,不能完全滿足我們對資料分析的需求。 我們還能如何獲取資料進行分析?首先,讓我們考慮一下我們在哪裡擁有最多的資料答案是:網際網絡本身。

網際網絡上包含數以千計的帖子,每個都包含無數的帖子、評論、電影評論等等。 總而言之,網際網絡擁有取之不盡用之不竭的資料供應。 如果我們能從網際網絡上獲取資料並根據需要進行分析,那就太好了。

一方面,來自網際網絡的分析資料是由真實使用者生成的,分析的結論自然具有高度的可信度。 另一方面,來自網際網絡的大部分資料都具有一定的規模,非常適合嘗試各種資料分析技術,是學習資料分析的最佳選擇。

現在的問題是,網際網絡的資料基本上都是以不同網頁的形式呈現的。 如果對這種型別的資料進行分析,該怎麼辦?我們知道,主流的資料分析往往是基於**的,比如excel或者csv檔案。 有沒有辦法把網際網絡上的網頁變成可以分析的網頁?答案是肯定的。

通過Python 爬蟲這項驚人的技術可以做到這一點。 接下來,我們先來了解一下爬蟲的基礎知識。 如何實現爬蟲將在後續文章中一一解釋。

爬蟲是一類程式的名稱,有些人稱它們為網路爬蟲。 爬蟲的簡單理解就是按照一定的規則提取網頁中的資訊,而Python是市面上最適合開發爬蟲程式的語言。

讓我們用乙個例子來說明爬蟲到底可以做什麼。

以一部電視劇集**為例,我們看到的網頁是這樣的。

但我們希望能夠梳理出一部電視劇集的**,比如以下幾點:

一種方法是檢視網頁,將電視劇集和主演一一複製到excel中。 但這樣就比較麻煩了,而且電視劇集有幾十頁,不可能全部複製。

另一種方式是python爬蟲,我們使用爬蟲從網頁中提取我們想要的內容(電視節目名稱、演員名稱)並將其儲存在python列表中。 因為整個過程都是用**實現的,所以無論最後有多少頁,我們都可以很容易地通過迴圈獲取電視劇集的所有資訊,最後將儲存結果列表儲存為Excel或CSV格式。 效率比人肉複製高100倍。

現在問題來了。 像叛逆爬行動物這樣不敬虔的工具背後的原理和過程是什麼?

從本質上講,爬蟲的原理類似於我們用來上網的瀏覽器,例如 Chrome 和 Edge。 我們先來談談瀏覽器是如何工作的,以Chrome為例

瀏覽器的過程大致分為四個步驟:

使用者輸入**,告訴瀏覽器他們想看哪個網頁;

瀏覽器進入對應的伺服器,根據**請求網頁內容

* 對應的伺服器將網頁內容返回給瀏覽器

瀏覽器繪製接收到的網頁內容,並在視窗中將其顯示給使用者。

現在我們了解了瀏覽器的作用,讓我們看一下爬蟲的工作流程:

爬蟲的工作主要包括以下步驟:

使用者指定要抓取的網頁

請求對應 **;

伺服器返回網頁的內容

根據使用者指定的規則提取感興趣的內容(例如,在前面的示例中,我們只對電視節目名稱和演員名稱感興趣)。

從上面的例子中可以看出,我們想要實現乙個爬蟲,主要是實現三個模組。

資料請求:您可以像瀏覽器一樣,按照 **go 進入相應的網頁內容。

網頁分析:根據規則,從網頁上大量的單詞和**中過濾掉感興趣的內容。

資料儲存:捕獲的感興趣內容將儲存到 CSV 和 Excel 檔案中,以供後續分析。

爬蟲的功能非常強大,正如吳俠所寫的那樣,越強大**一定要注意正確使用,濫用往往會導致很多不好的事情發生。

爬蟲也是如此,一方面,我們可以直接抓取網際網絡上的網頁資訊,通過爬蟲來構建我們的資料集。 但另一方面,資料的所有權畢竟是它自己。 雖然爬蟲的本質和瀏覽器是一樣的,但爬蟲可以在短時間內爬取大量的網頁和資料,所以我們在開發和使用爬蟲技術時一定要注意以下兩點:

適當減少抓取網頁的頻率,以免給相關**伺服器帶來負擔;

捕獲的資料僅供您自己分析,不得傳播或出售,否則可能存在違法風險。

相關問題答案

    資料分析的美麗湯

    beautiful soup Beautiful Soup 提供了簡單的 Python 樣式函式,用於導航 搜尋 修改分析樹等。它是乙個工具箱,通過解析文件為使用者提供他們需要抓取的資料,並且由於它很簡單,因此編寫乙個完整的應用程式並不需要太多時間。Beautiful Soup 自動將輸入文件轉換為...

    如何選擇Python資料分析培訓課程?

    在選擇 Python 資料分析培訓課程時,您需要考慮以下因素 .培訓課程內容 確保培訓課程符合您的需求和目標。該課程應涵蓋 Python 程式設計基礎 資料清理和分析 統計和概率論 視覺化和報告等核心內容。同時,你還需要注意課程是否注重實踐練習,以便更好地掌握所學的技能。.師資力量 乙個好的培訓課程...

    女生學習資料分析適合嗎?

    女生學習資料分析適合嗎?隨著數字時代的到來,資料分析已成為企業不可或缺的一部分。越來越多的女生對資料分析產生了興趣,但女生學習資料分析合適嗎?本文將從多個角度探討這個問題。 資料分析行業的發展前景。隨著大資料時代的到來,資料分析已經成為企業不可或缺的一部分。資料分析師已經成為當前市場上非常熱門的職業...

    SPSSPRO商業資料分析的價格敏感度分析

    在傳統的商業環境中,企業通常有兩種型別的定價策略 成本上公升策略和競爭性定價策略。成本加成策略是根據企業的成本資訊進行最優設定的一種方式,具體操作是計算單個產品的全部成本,包括直接成本 如原材料 人工等 和間接成本 如管理費用 折舊費用等 然後加上預期利潤率,得到產品的售價。成本加成策略實施起來相對...

    銷售資料分析 客戶畫像分析的詳細畫像

    之前講過整體客戶畫像分析,即根據公司所有客戶的歷史記錄,將客戶分為買入客戶 新客戶 流失客戶 回頭客,並計算出一些相應的比例指標,如流失客戶比例 新客戶比例 回歸客戶比例等,通過這種整體畫像分析,可以發現公司新客戶開發中是否存在問題,或者老客戶留存,同時還可以列出各種客戶的詳細名單,並通過簡單的聯動...