人工智能系統可以分析出那些是假新聞文章
網絡上到底有多少新聞是真實?
據外國記者報道,現在的新聞報導中,新聞經常被重新定義為個人軼事和熱門話題。 為了獲得新的東西和可點擊的東西,我們要找到最簡單,最接近的東西,這就是我們自己的意見和經驗。
我們很擔心這個! 我們這樣做(現在正在做),我們認為這並不總是生病。 但從更大的意義上來說,值得一提的是,新聞報導在多大程度上被不“內容密集”的新聞報導所淡化。那麼客觀來說,信號與噪音之間的真實比率是多少? 首先,我們需要一個合理客觀的內容密度度量和一個合理客觀的機制來評估這個度量的新聞報導。
在“人工智能研究雜誌”最近發表的一篇論文中,Google和賓夕法尼亞大學的計算機科學家Ani Nenkova和Yinfei Yang分別描述了一種新的機器學習方法,按照“內容密度。“平均準確率達到80%左右時,他們的系統能夠準確地分類從廣泛的領域的新聞報導,從國際關係和商業到體育和科學新聞,當對照已經正確分類的地面實況數據集新聞文章。
在很高的層次上,它和大多數其他機器學習系統一樣工作。從這個案例中的大量數據新聞文章開始,然後給每個項目一個註釋,說明該項目是否屬於特定的類別。特別是,這項研究主要集中在文章主角,傳統上旨在總結其內容和讀者的故事的第一或第二。文章是從現有的紐約時報語言數據集中提取的,這些數據集由原始文章和元數據以及由研究人員撰寫的簡短的信息摘要組成。
所以,第一個任務是收集大量的“紐約時報”文章 – 僅為5萬多篇,並將他們的主要段落與上述簡短摘要進行比較。這兩者之間的差異可以看作是信息豐富度的一個指標。我們可以假定摘要使內容密度最大化(這就是為什麼它們存在),所以它們可以作為比較文章引用的基準。實際的內容量化是根據另一個現有數據集進行的,這些數據集包含或多或少可能傳達內容的大詞彙表(高內容密度:“官方”,“統一”,“今天”;低內容密度:“人”一天“,”世界“。)
所以,我們可以想像,每一個摘要和一對文章得分,一個故事的內容密度是這兩個評分的差異。這些初步評估是通過一個自動化系統(大部分)和研究人員本身以及Amazon Mechanical Turk工作人員(約1,000篇文章)完成的。最後,我們得到了一大批標籤為內容密集的新聞文章,這就是機器學習算法的基礎,它基本上構建了自己內容密集的內部抽象表示。
有趣的是,這取決於新聞領域有所不同。研究指出:“在體育和科學領域,內容密度分數的分佈顯然偏向於非內容密集的頻譜結束。 “在這些領域,作家們更多地訴諸於創造性和間接的語言來激發讀者的興趣。”(LOL。)
然後對模型進行了評估,對標籤數據的一個子集,為了驗證目的而留出。這就是我們得到80%的統計數據的原因,在機器學習的宏偉計劃中,這個統計數據還不錯。在整套分析的文章中,只有大約一半被發現內容密集的導致。做你會的。 (可惜的是,福克斯新聞似乎還沒有一個現有的語言數據集。)
“我們已經證實,數據的自動標註捕捉到人們所感知的信息的區別”,該論文總結說。 “我們還展示了概念驗證實驗,展示瞭如何使用這種方法來改進新聞的單文檔摘要以及新聞瀏覽應用程序中摘要摘要的生成。在將來的工作中,任務可以擴展到更精細的級別,句子級別的預測和預測將被整合到一個功能完備的匯總系統中。
[完]
對於以上消息,各位298電腦讀者又怎看呢?
歡迎到我們的<<討論區>>分享你的意見。
灣仔298電腦資訊網
免費網上電腦雜誌,電腦IT人集中地!
網址:www.wanchai298.com