而此時處在輿論漩渦之中的林灰在干什么呢?
當然是在廢寢忘食地查閱那些跨越時空的“參考資料”,。
這里面有價值的信息太多了,。
很多在后世平平無奇的東西放到眼下這個時空中都是亂殺的存在。
但林灰沒有被激動的情緒所左右,。
因為林灰始終清楚領先半步是先驅,,領先一步是先烈。
技術真領先個一年半載還好說,,冷不丁一下子領先別人四五年就出大問題了,。
只有能夠契合14年這個時代背景的技術才是林灰尋找的有價值的東西。
在前世那部ThinkPad里幾乎沒翻找多長時間,。
林灰就找到了他的獵物:
——生成/抽取復合式新聞摘要算法,。
這種算法在前世并不算特別新鮮的玩意。
林灰之所以看中它是因為這個算法成熟,。
某種程度上成熟就意味著穩(wěn)定,、性能可靠。
林灰?guī)缀醪恍枰俳涍^額外的調教就直接拿這種算法開發(fā)之前他構想的那個新聞摘要軟件,。
當然了,,這個算法也只是在前世那個時空不算新鮮而已。
放到14這個時空里,,依舊是領先的技術,。
只領先一點點,有用嗎,?
不要說領先一點了,,就是領先半點。
也照樣讓你絕望,!
你沒打破我壟斷之前,,我各種高價訛詐賺取巨額利潤,。
你打破我壟斷了,我直接白菜價跟著你一塊擺爛,。
氣不氣,?
別人氣不氣不知道。
反正兔子已經氣得想咬人了,。
更何況算法這種東西迭代本來就快,!
領先一年半載時間幾乎等同于技術方面領先一代了。
生成/抽取復合式新聞摘要算法更是領先14年這個時空主流新聞摘要算法一代半,。
這可不是林灰夸張,。
事實上,現在的新聞摘要自動生成的方式還是抽取式新聞摘要,。
抽取式顧名思義就是按照一定的權重從新聞原文中尋找跟中心思想最接近的一條或幾條句子,。
抽取式摘要還在用著“古老”的Text Rank排序算法。
這種算法大體思想是先去除文章中的一些停用詞,。
之后對句子的相似度進行度量,,計算每一句相對另一句的相似度得分。
迭代傳播,,直到誤差小于0.0001。
之后再對上述得到的關鍵語句進行排序,,以期能得到想要的摘要,。
客觀來說,這種算法雖然也還可以,。
但問題在于抽取式摘要主要考慮單詞詞頻,,并沒有考慮過多的語義信息。
也正因為如此,,這種抽取式摘要很難獲取復雜新聞的核心內容,。
而且這種摘要方式的一個極其明顯的弊端在于:
抽取式摘要對英文新聞還算能湊合著用。
但對于中文新聞完全是無所適從的狀態(tài),。
總而言之,,抽取式的摘要目前雖然已經比較成熟。
但是抽取質量及內容流暢度方面都有點不夠看,。
正因為抽取式摘要的種種不足,。
之后又出現了生成式摘要算法。
生成式摘要算法得益于神經網絡學習研究的深入,。
這種摘要以一種更接近于人的方式生成摘要,。
這就要求生成式模型有更強的表征、理解,、生成文本的能力,。
生成式則是計算機通讀原文后,在理解整篇文章意思的基礎上,按機器自己的話生成流暢的概括,。
生成式新聞摘要主要依靠深度神經網絡結構實現,。
生成式摘要在理解新聞內容方面相比抽取式摘要有著先天優(yōu)勢。
但這種摘要也不是完全沒有弊端,。
這種摘要方式很容易受到原文長度的制約,。
當把一篇很長新聞放在生成式摘要算法前。
其表現大概率為:(⊙﹏⊙)太長不看,!
而生成/抽取復合式新聞摘要算法則綜合了抽取式摘要算法和生成式摘要算法的優(yōu)點,。
對于較長的新聞,利用該算法可以實現先抽取核心內容,。
再在核心內容的基礎上進行生成,。
總而言之,如果依托生成/抽取復合式新聞摘要算法開發(fā)一款軟件的話
也完全能夠吊打尼克·達洛伊西奧開發(fā)的軟件,。
畢竟尼克開發(fā)的軟件,。
無論是Summly還是Yahoo News Digest(雅虎新聞摘要)
這些都是基于抽取式算法的。
生成/抽取復合式新聞摘要算法在效率方面可以說是吊打抽取式摘要算法,。
不過話說回來這么弔的算法只開發(fā)一個軟件然后賣出去,。
似乎有點虧。
怎么說也是領先于時代的技術,。
似乎可以水幾篇論文什么的,。
呃,不過高中才畢業(yè)就發(fā)表論文的話似乎有點過于驚世駭俗了,。
究竟怎么做才能物盡其用呢,?