文字分析知識梳理

Mondo 財經 更新 2024-02-29

文字分析作為一種新興的基於定性研究的定量分析方法,可以揭示文字的變化和特徵,為經典問題的研究提供新的思路。

文字分析應用於許多領域,例如在旅遊中,文字分析可用於研究旅遊形象的感知,例如,在經濟學中,文字分析可用於研究當前的保險政策等,還有其他領域將應用於文字分析。

文字分析中常見的步驟有五個,包括資料採集、分詞、資料清洗、特徵提取、建模等分析,如下圖所示

1. 資料收集

文字分析的第一步需要資料採集,獲取文字資料的方式一般包括網路平台、**平台、新聞、CNKI、論壇等。

2. 分詞

計算機將對匯入的字串進行分割以進行進一步分析。

3. 資料清洗

在文字分析過程中,需要先對文字進行預處理,這是非常重要的一步,直接影響後續分析的準確性和可靠性。 標點符號和停用詞去除是預處理中常見的操作,可以有效地去除文字中的不相關資訊,提高分析效率。 同時,對文字上的停用詞進行分詞和刪除,也有助於提取更準確的關鍵詞和主題。 此外,還會通過關鍵詞的頻率、分布等方式分析文字的主題,有的研究者還會通過分析情感詞來分析文字的情感傾向。

4. 特徵提取

例如,資料清洗後的特徵提取可以在視覺化部分使用TF-IDF,這是一種常用的特徵提取方法,它考慮了單詞在文字中的重要性及其在語料庫中的普遍性。 tf-idf 值越高,單詞在文字中的重要性越大,還有其他方法可以做到這一點。

5. 後續分析

使用文字資料進行後續分析,如視覺化圖形顯示、主題分析、聚類等,將在下一模組中講解。

文字分析演示:單擊SPSSAU主系統左側儀表板上的“文字分析模組”。

進入文字分析模組後,研究人員可以選擇上傳資料,包括貼上文字上傳或上傳TXT Excel檔案(大小限制在5M以內)。 如下圖所示:

然後你可以根據自己的需要選擇分析方法,進行分析:

文字分析的應用有很多,以SPSSAU為例,它可以進行文字視覺化(詞云分析)、文字情感分析、文字聚類分析、社交網路關係圖、LDA主題分析、語義分析等。

文字視覺化

在文字分析模組中,最重要和最基本的是顯示分詞結果,通常使用詞云來顯示。 在“詞云分析等”中,SPSSAU提供了詞云分析、自定義詞雲、詞定位和TF-IDF四個功能。

詞云分析

詞云地圖直觀展示2023年12月共41條新聞內容的關鍵詞資訊,戶、城市、發展、建設都是關鍵資訊。 預設顯示前100個高頻關鍵詞,數量可獨立設定。 您還可以修改詞云樣式和詞云地圖。

自定義詞雲

如果你對詞云分析不滿意,也可以使用自定義詞雲,研究者可以將排序後的資訊,包括關鍵詞及其詞頻,直接貼上(或編輯)在**中,然後會出現對應的詞雲圖。

詞語定位

通過詞位可以觀察到乙個詞,通過行號可以檢視這些行中的具體外觀。

tf-idf

在文字分析中,TF-IDF是反映乙個關鍵詞在整體資料中重要性的重要指標,TF-IDF越高,其重要性越高。 它與詞頻的含義不同,詞頻是指出現的次數,而 TF-IDF 更側重於關鍵字的重要性。 其中:tf-idf = tf * idf; 其中tf:tf=n n,其中n為乙個關鍵詞的詞頻,n為整個資料關鍵詞的詞頻之和,n為固定值,當n為詞頻越高時,tf越高,關鍵詞越重要; idf = log(d (1+d)),log 是對數,d 是資料的行數,d 是資料中的行數。 D值是固定值,D值越大,隨處可見時IDF越小,D值越小,不隨處可見時IDF越高,IDF越高,乙個關鍵詞的重要性越高。

文字情感分析

目前主流的文字情感分析方法可分為情感字典、機器學習和深度學習三大類。 基於情感字典的方法是一種傳統的情感分析方法,它利用情感字典中的情感極性來計算目標語句的情感值。 基於詞典的分析方法雖然實現簡單,但也存在缺點,其準確性很大程度上取決於詞典構建的質量,而情感詞典的構建需要大量的人力物力,對新詞的適應性也很差。

在文字分析模組中,SPSSAU提供了兩種情感分析方式,即單詞情感分析和**情感分析。 按詞的情感分析是指對提取的關鍵詞進行分析並進行視覺展示; 感性分析是指以“行”為單位對分析的原始資料進行分析,可以使用特定的情感得分值資訊。

文字聚類

文字聚類就是對需要分析的關鍵詞進行聚類分析,並直觀地展示出來,SPSSAU提供了兩種文字聚類方法,即逐詞聚類和逐行聚類。

社交網路關係圖

社交網路關係圖顯示了關鍵詞之間的關係,這裡的關係指的是“共詞矩陣”,即兩個關鍵詞同時出現的頻率,“共詞矩陣”資訊以視覺化的方式呈現。

共詞矩陣它主要用於表示關鍵字之間的關聯強度。 它是行和列的矩陣,矩陣中的元素指示關鍵字的相關性。 在共詞矩陣中,元素的值越大,兩個關鍵詞之間的相關性越強,即它們共現的頻率越高。

社交網路關係圖社交網路關係圖在文字分析中的應用主要是揭示文字中各個實體之間的相關性。 這種圖表可以幫助我們更好地理解文字的主題和內容,並發現文字中隱藏的資訊和模式。

lda主題分析

主題模型是指用於統計一系列文件中主題數量的統計模型,LDA可以通過無監督學習方法發現文字中隱藏的主題資訊。 LDA將主題視為文件內容的濃縮,因此我們可以通過LDA從大型語料庫中的資訊生成文件,生成的文件可以看作是由多個主題組成的,構成主題的每個單詞都是無序的,從而達到降低文件維度的效果, 大大降低了問題的複雜性,並且還具有語義特徵。spssau 結果如下(氣泡的大小表示主題的重要性,條形的長度表示主題較小時單詞的權重)。

發現新詞

詞典無法識別的新詞涉及兩個關鍵指標:資訊熵和互資訊。 資訊熵越高意味著乙個詞更容易與其他片語合成乙個詞,而資訊熵越低意味著乙個詞不太可能與其他詞組合。

停用詞:情緒化詞

停用詞:停用詞是指文字中出現頻率高但對文字主題和內容貢獻較小的詞,去掉停用詞可以提高分析的效率和準確性。

情感詞:情感詞是指表達情感或情感傾向的詞,對情感詞的識別和分析可以幫助我們更好地理解文字的情感內涵;

這個冬天,哈爾濱著火了。 進入12月以來,從全國各地飛到哈爾濱賞冰雪的遊客絡繹不絕,很多朋友去“爾濱”都會提前看一下攻略,但看了幾篇文章後,大家都有了自己的攻略。 共選取10篇攜程最新策略文章進行文字分析(結論不作為參考,僅供案例參考

1. 搜尋資料

在 Ctrip.com 搜尋“哈爾濱”相關攻略文字,收集最新旅遊小貼士。

2. 上傳SPSSAU平台

以文字貼上的形式上傳到SPSSAU平台。

3. 資料清洗

資料在上傳之前就已經過處理,包括標點符號、特殊字元等。

4.開始文字分析

從文字中提取了100個關於哈爾濱出行策略的高頻詞。 如下表所示:

首先,從詞性來看,高頻詞彙中有很多地名和形容詞來形容旅遊感受,具體集中在景區和美食體驗上。 詞頻越高,遊客的關注度越高。 通過上表中的高頻詞彙分析可以看出,**街、雪城、教堂、松花江等旅遊景點的順序更高,說明遊客對上述景區的關注度更高。

同時,哈爾濱旅遊戰略的高頻詞可以以詞雲圖的形式視覺化,在詞雲圖中,高頻的詞會以較大的形式呈現,低頻的詞會以較小的形式呈現。

而如果研究者想知道乙個詞出現在哪裡,也可以用“詞位”來檢視,比如說,如果他對“**街道”更感興趣,點選“**街道”,看看他出現在哪裡。

而如果你想看看關鍵詞在整個資料中的重要性,我發現在幾種策略中,“Malatang”更重要。

您還可以使用文字聚類:

從第1類集群可以看出,吃佔比很大,比如“巧克力”、“秋林”等(結果有點牽強,可能與資料太少有關,案例僅供演示)。

您可以在 spssau** 上找到更多資訊。

相關問題答案

    採用文字分類訓練樣本擴充方法,自動擴充資料質量

    中新賽克技術。該技術由中新賽克交付,並參與 資料猿年度金猿策劃活動 大資料產業年度創新技術突破榜暨獎項 評選。設計並實現了一種基於詞嵌入的文字分類訓練樣本增強方法。該技術所述的基於詞嵌入的文字分類訓練樣本富集方法發明了一種類,該類利用現有樣本資料在現有樣本中自動高效地豐富樣本量較小的類。該方法的主要...

    知識梳理:為學生構建完整的知識網路

    梳理 是複習課程的核心環節,既是對所學知識的梳理,也是知識體系的構建和完善。通過梳理,學生可以將分散的知識點串聯起來,形成清晰的知識線,進而構建完整的知識網路。這個過程有助於學生加深對知識點的理解和記憶,更好地把握知識之間的聯絡,提高解決問題思路的清晰度和解決問題的效率。在 梳理 的過程中,教師需要...

    洛江石,詳細分析梳理

    洛江石是一種常見的石材,廣泛用於道路建設和工程石材。具有硬度 耐磨 耐壓等特點,因此在建築工程中起著重要作用。本文將介紹洛江石材在道路建設和工程中的特點 用途和應用。礦山礫石直銷,點選我諮詢 首先,洛江石材的特性主要體現在其物理效能上。具有高硬度 高密度 高強度等特點,因此在使用過程中不易磨損和斷裂...

    企業人工成本分析與控制策略

    眾所周知,人工成本是每個企業成本中佔很大比例的!人力資源是商業夥伴,應該有財務意識和成本意識,以便以業務為導向。這與人力資源的發展變化以及決策科學的發展和現狀是一致的。從企業發展目標出發,如何科學預算勞動力總數 人員結構 勞動力總成本?如何節約人工成本,善用人力資源?從財務和管理的角度來看,為什麼要...

    對於Word中隱藏文字的知識,閱讀本文就足夠了

    Word 允許您隱藏文字,以便您可以閱讀或列印文件,就好像文字不存在一樣。這似乎毫無意義,因為如果你不想讓別人閱讀它,為什麼不刪除文字呢?但隱藏文字確實有一些有趣的用途。讓我們來看看什麼是隱藏文字 什麼不是 為什麼要隱藏它,以及如何隱藏它。Word 使用格式標記隱藏文字,就像設定粗體或斜體文字的格式...