亚洲乱亚洲乱妇24p,日本理伦片午夜理伦片,99精品无码一区二区毛片免费,国产麻豆一精品一av一免费

您當(dāng)前的位置主頁 > SEO優(yōu)化 > 瀏覽文章

Python無監(jiān)督抽詞

來源:SEO優(yōu)化 2012-10-13

快速提升網(wǎng)站銷量,使用365webcall網(wǎng)站客服系統(tǒng)

如何快速正確分詞,對于SEO來說,是提取tags聚合,信息關(guān)聯(lián)的好幫手。

目前很多分詞工具都是基于一元的分詞法,需要詞庫來輔助。

通過對Google黑板報(bào)第一章的學(xué)習(xí),如何利用統(tǒng)計(jì)模型進(jìn)行分詞。

本方法考慮了3個(gè)維度:

凝聚程度:兩個(gè)字連續(xù)出現(xiàn)的概率并不是各自獨(dú)立的程度。例如“上”出現(xiàn)的概率是1×10^-5,”床”出現(xiàn)的概率是1×10^-10,如果這兩個(gè)字的凝聚程度低,則”上床”出現(xiàn)的概率應(yīng)該和1×10^-15接近,但是事實(shí)上”上床”出現(xiàn)的概率在1×10^-11次方,遠(yuǎn)高于各自獨(dú)立概率之積。所以我們可以認(rèn)為“上床”是一個(gè)詞。

左鄰字聚合熵:分出的詞左邊一個(gè)字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”過去”這個(gè)詞,前面可以用“走過去”,“跑過去”,“爬過去”,“打過去”,“混過去”,“睡過去”,“死過去”,“飛過去”等等,信息熵就非常高。

右鄰字聚合熵:分出的詞右邊一個(gè)詞的信息量,同上。

下面是一個(gè)利用Python實(shí)現(xiàn)的demo(轉(zhuǎn)自:/?p=682

收藏本文

文章編輯: 365webcall在線客服系統(tǒng)(www.365webcall.com)

我的評論

登錄賬號: 密碼: 快速注冊 | 找回密碼

扒开双腿疯狂进出爽爽爽动态照片| 亚洲线精品一区二区三区影音先锋| 污污污www精品国产网站| 日韩制服国产精品一区| 人妻女教师耻辱の教室| 亚洲av无一区二区三区久久| 小舞屈辱打开双腿自慰出白浆| 亚洲午夜精品A片久久| 欧美熟妇XXXXX欧美老妇不卡| 去男朋友宿舍被室友4p| av片在线观看| 亚洲一区二区三区偷拍女厕| 床震吃奶摸下成人a片在线观看| 日本真人大尺度做爰| 欧美性做爰片免费视频看不忠| 69久久夜色精品国产69| 久久水蜜桃亚洲av无码精品| 游泳教练在水里含我奶头| 从头啪到尾全肉小黄书小说| 成品网站w灬源码1688小说| 国产精品第一区揄拍无码| 国产精品成人va在线观看| 少妇高潮毛片免费看a片| 无永久免费精品精品永久-夜色 | 按摩师舌头进去添的我好舒服| 厨房掀起少妇裙子挺进去| 国产无遮挡裸体免费视频在线观看| 国产精品国产三级国快看| 亚洲日韩精品欧美一区二区一| 337p日本欧洲亚洲大胆精品| 精品人妻无码一区二区三区4| 国产一区二区三区久久精品| 男攻男受过程无遮掩视频| 翁想房中春意浓1-28| 天天综合亚洲色在线精品| java强行videos另类| 国产大陆亚洲精品国产| 欧美精品一区二区| 公交车内被强高h| 少妇人妻偷人精品视蜜桃| 久久久久成人精品|