亚洲乱亚洲乱妇24p,日本理伦片午夜理伦片,99精品无码一区二区毛片免费,国产麻豆一精品一av一免费

您當(dāng)前的位置主頁 > SEO優(yōu)化 > 瀏覽文章

Python無監(jiān)督抽詞

來源:SEO優(yōu)化 2012-10-13

快速提升網(wǎng)站銷量,使用365webcall網(wǎng)站客服系統(tǒng)

如何快速正確分詞,對于SEO來說,是提取tags聚合,信息關(guān)聯(lián)的好幫手。

目前很多分詞工具都是基于一元的分詞法,需要詞庫來輔助。

通過對Google黑板報(bào)第一章的學(xué)習(xí),如何利用統(tǒng)計(jì)模型進(jìn)行分詞。

本方法考慮了3個(gè)維度:

凝聚程度:兩個(gè)字連續(xù)出現(xiàn)的概率并不是各自獨(dú)立的程度。例如“上”出現(xiàn)的概率是1×10^-5,”床”出現(xiàn)的概率是1×10^-10,如果這兩個(gè)字的凝聚程度低,則”上床”出現(xiàn)的概率應(yīng)該和1×10^-15接近,但是事實(shí)上”上床”出現(xiàn)的概率在1×10^-11次方,遠(yuǎn)高于各自獨(dú)立概率之積。所以我們可以認(rèn)為“上床”是一個(gè)詞。

左鄰字聚合熵:分出的詞左邊一個(gè)字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”過去”這個(gè)詞,前面可以用“走過去”,“跑過去”,“爬過去”,“打過去”,“混過去”,“睡過去”,“死過去”,“飛過去”等等,信息熵就非常高。

右鄰字聚合熵:分出的詞右邊一個(gè)詞的信息量,同上。

下面是一個(gè)利用Python實(shí)現(xiàn)的demo(轉(zhuǎn)自:/?p=682

收藏本文

文章編輯: 365webcall在線客服系統(tǒng)(www.365webcall.com)

我的評論

登錄賬號: 密碼: 快速注冊 | 找回密碼

亚洲国产精品自在自线观看| 最近中文字幕高清中文字幕无| 国产精品一国产精品| 蜜桃视频直播app| 国产精品成人一区二区三区无码 | 国产av无码专区亚洲精品| 美女扒开大腿让男人桶| 野花免费观看高清视频6| 亚洲av无码一区二区二三区软件| 校花娇喘呻吟校长陈若雪视频| 国产精品久久一区二区三区| 亚洲av无码国产在丝袜线观看 | 国产女人高潮视频在线观看| 亚洲精品国产AV天美传媒| 国产剧情av精品迷奷| 男男肠道灌水失禁play| 亚洲av无码专区在线播放中文 | 英语老师给我吃她的小兔兔| 国产精品国产三级区别第一集| 搡老熟女国产| www四虎最新成人永久网站| 亚洲色大成www亚洲女子| 色综合久久久久久久久五月| 日本熟妇色XXXXX日本免费看| 无遮挡啪啪摇乳动态图GIF| 亚洲18色成人网站WWW| 中文字幕人妻中文av不卡专区 | 波多野结衣绝顶大高潮| 中文人妻熟女乱又乱精品| 小路あゆむちっち在线观看| 无码人妻精品一区二区三区66| 日韩人妻无码精品一区二区三区| 亚洲国产av一区二区三区| 高h调教女m强制高潮| 日本aⅴ精品中文字幕| 欧洲-级毛片内射| 女子初尝黑人巨嗷嗷叫| 亚洲av中文无码乱人伦在线播放 | 亲胸揉屁股膜下刺激视频| 99草草国产熟女视频在线| 精品一区|