<em id="fr3d5"><address id="fr3d5"></address></em>

              <form id="fr3d5"></form>

              <address id="fr3d5"></address>

                https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=90625304_hao_pg&wd=%E5%A4%B4%E6%9D%A1%E7%BD%91&oq=%25E5%25A4%25B4%25E6%259D%25A1%25E7%25BD%2591&rsv_pq=d52789ac001857cf&rsv_t=6144F3mF%2FBE43TD4LjVmxhTL9O%2BDJzyEbXiJb%2BTG0p2JG336BExm5DGht8z316uuEVDWk9Kl&rqlang=cn&rsv_enter=0
                bg

                搞笑段子

                有次去賭場玩, 看到一大爺拿著十塊錢, 猛一拍桌子說: 押大! 話音未落, 假牙剛好掉到桌面上, 全場爆笑, 唯有搖色子的哥們相當淡定的來了一句: 大爺您這要是押中了我拿啥陪啊?
                發新帖
                開啟左側

                談談我做過的關鍵詞聚類

                [復制鏈接] 作者號其它主題   [推薦給好友]
                1.8K 0 打印 上一主題 下一主題

                導讀:@食堂老板:很多SEO傻子們以為百度的搜索技術在網頁搜索,百度對于競價推廣的搜索相關技術對于個人而言其實更值得研究和更具有商業價值。



                首先,如果單純拿出一堆詞就讓我分類,這個我真做不到,我不知道有沒有人能做到,反正我做不到。做關鍵詞分類,對我而言,一定有一些基礎信息,基礎數據作為背景。


                案例1:百度商業詞聚類模型

                現在看新聞,大家經常討論一個話題,百度醫療行業的收入貢獻比是多少,其實,我爆個大料給大家,在2005年甚至2006年之前,百度自己都不掌握這類數據。


                當時百度有一個簡單的客戶分類,是客服提交的,然后我們看了一下消費的行業分布,結果顯示超過50%屬于其他分類,這個結果基本上就沒法看了。


                然后我就琢磨,用商業詞能不能直接聚類為行業,當時我在產品部門,合作反欺詐點擊的工程師是張懷亭(此人似乎現在還在百度),這是個算法高手,他當年的畢業論文就是關聯規則和聚類算法,我就去請教他,他說了一堆,我大部分沒聽懂,但大概要點知道了一些,然后找他要了論文看了看,也沒太看明白,憑借自己粗淺的理解我就動手了,然后這個還真做成了。


                出發點是 假設客戶本身具有行業屬性(如果這個假設不存在,那就沒轍了),我認為每個客戶提交的關鍵詞,彼此是有關聯的。某兩個關鍵詞如果同時被不同的客戶提交,其關聯性就會隨之增加,這個是最基本的一個定義,叫做共同推舉數。也是最容易算的一個值。


                但是僅僅依賴于共同推舉數有一個問題,就是會導致很多詞都和熱門詞關聯,這是不合理的,我記得當時好像是某網上書城的推薦購買那一欄,明顯都是熱門書籍,似乎也是基于共同推舉數做的關聯。


                問題1:A和B有50個共同推舉,A和C有30個共同推舉,但是B這個詞是熱門詞,共有2000個客戶提交;而C是冷門詞,只有50個客戶提交,請問A和B的關聯度高還是A和C的關聯度高?


                問題2:客戶1 提交了10000個詞(類似阿里,中青旅真的是這么提交的);客戶2提交了20個詞,客戶1所提交的10000個詞的彼此關聯度和客戶2之間提交的是否一致?


                考慮這兩個問題,做權值調整,(其實我記得還有一個權值,很久的事情了,搞不清了)然后計算詞與詞的關聯值。


                那么,權值怎么定? 呵呵,實話說,拍腦袋,不過拍完了要校驗。


                實現程序只用了不到一個下午,然后跑一遍程序大約1個小時到2個小時(那時候百度的商業詞還沒那么多,客戶也沒現在呢么多,我的程序其實效率不夠好)。然后我做了一個web展示界面,就是任意輸入一個詞,列出其關聯詞及關聯值,目測壞案例,分析參數的問題,然后修改參數,再跑一遍。。。 跑了n多遍,大約兩三天時間,覺得結果差不多了,詞與詞的關聯建立起來了,考慮第二步,聚類。(當時認識了很多奇葩的商業詞,大開眼界,對互聯網行業認識徹底改觀,比如白小姐,黃大仙,咳咳、咳咳,這個領域就不能再說了)


                聚類的想法極為簡單,把每個行業的代表詞(與很多詞關聯的)抽取出來,當作核心詞,然后基于詞的關聯(延展一級關聯、二級關聯、三級關聯,比如A與B關聯,B月C關聯,C與D關聯,計算彼此權值衰減,得出A與D的關聯)。盡可能把所有詞聚合到核心詞上,作成行業詞表。


                最開始核心詞我從庫里挑與其他詞關聯度較高的有20多個,然后多級權值衰減也是拍腦袋想的,然后跑一遍,看兩個指標,第一、覆蓋率是多少;第二、準確率如何,選取每個行業關聯度最低的詞(壞案例的密度較高,有些詞會同時被兩個行業核心詞關聯,但權值計算會出問題,導致被并入錯誤的行業)去看,選擇沒有被關聯上的詞去看,分析權值的問題。然后修改衰減參數,增加核心詞。這個程序我也是寫了一個下午,但是調試權值和增加核心詞,干了一個禮拜。


                然后,百度商業分析部終于可以推出,基于行業的收入報表。我自豪的說一句,百度做收入行業分布,是基于我的關鍵詞分類算法開始的,當然,今天他們鳥槍換炮了,我的算法效率不夠(初期還行,到更大的詞規模和更多客戶就不行了),覆蓋率和準確度并不十分完美(壞案例還是一直存在的,不過盡可能控制在消費總額的 10%以內,對熱門詞比較準,但對一些長尾控制不住)。不過、我是在產品部門干的這個活,呵呵。


                后來,這個模型還用于智能起價。下面說一下智能起價的八卦。


                智能起價其實是百度一個失敗的商業嘗試,對業務的傷害非常大,但是初期的設計理念并沒有大問題,百度當時基于關鍵詞的競價(當時的競價模式非常簡單,別跟我說現在百度的競價模式不這樣,我明白),對商業價值的挖掘是有缺陷的,比如一些超級熱門詞,3毛一個點擊也是賣不掉的(比如電影,小游戲)。是不是可以便宜點賣呢?對一些非常長尾但是價值很高的詞,因為發現的客戶少,所以起價很低,而其商業價值并不弱,比如 “最新型綠色干洗機報價” 這樣的長尾詞可能參與競價的只有一兩個客戶,但是其商業價值不會低于“干洗機”這樣的高價詞。所以,智能起價真正的目的,是給熱門非商業詞降價,給冷門長尾商業詞提價。 那么我就提出一個觀點,關鍵詞的起價應與他關聯詞的平均點擊價格相關。然后他們拿這個模型去跟領導講,很快就通過了。(牢騷一句,趙某童鞋去講的,被領導問毛了,就說算法是技術部門的,他也不是很清楚,他去講的時候明明是我提供的原型! 不過后來技術部門又做了一版,但那是后話了。) 智能起價模型失敗的原因,有兩個原因,第一,他們上的時候為了提高對非商業詞的覆蓋率,硬把關鍵詞包含規則加上去了。導致了一些壞案例。(比如平板,平板電腦,并不是一個行業)。當時效果很不好,領導很不爽,批評我的壞案例太多,列了一堆,我挨個去查,所列的沒有一個是我算法算出來的,都是詞包含包進去的。其實這個問題還不算嚴重,詞包含固然有壞案例,但是影響面極為有限;第二個問題更嚴重,就是領導太急迫了,這個事情我的建議是,起價權值低一點(通過算法計算每個詞關聯平均價格,然后關聯平均價格*起價參數=該詞起價,這是基本公式,起價參數全憑個人判斷),看效果慢慢調整,結果領導一上來設的相當高,所以,客戶極大不爽,各種擦屁股持續了幾個月。百度那個季度實在可憐。


                鳳巢之后,智能起價終于壽終正寢。鳳巢的方案更完美,更綜合,這是必須承認的。


                案例2:搜索詞/指數詞的聚類

                當然,也可以基于搜索網民的提交來計算關聯度,但是首先,網民的搜索行為,并不如客戶提交商業詞行為那樣具有分類屬性。其次,我當時的處理能力也搞不定這樣的數據規模的關聯計算。(好吧,現在也不大搞得定。)


                那么基于什么呢?基于關鍵詞+搜索量。


                這事又是張懷亭幫忙,我在百度合作最多的工程師就是懷亭,當時他幫我做所有搜索記錄的整理,包括匯總和反刷處理(除了一些ip,客戶端標記清理外,最重要的還有一個規則,是基于渠道分布和客戶端分布規則,正常的搜索詞,來自于不同渠道的比例應該是遵循一個合理分布比例的,所謂渠道包括百度官網,hao123,其他聯盟渠道等等,如果嚴重不遵守這個比例,基本就是刷指數了,但這個規則沒有應用到百度指數上,至少當時沒應用到,原因似乎是這樣的,當時幾乎所有榜單上的熱門女星,似乎都有經紀公司或粉絲團的刷榜行為。)所以當時我手里有百度所有搜索詞的搜索數據(清理掉刷指數的數據),而且每日更新。


                那么怎么分類呢?如果做全分類,我真做不到,但是熱門詞是可以做的。這里有一個要點,就是每個熱門關鍵詞,都不是孤立存在的。而這些熱門詞的相關詞(基于詞包含)里,會攜帶一些表明其行業屬性的詞根,然后可以回溯這個熱門詞的行業屬性。(對了,我上面不是說詞包含有壞案例么,咳咳,這個,別求全責備。只有詞和搜索量,還要做分類,有些壞案例也只能手工調整了。)


                舉例,


                一個熱門游戲,比如 神仙道, 會有大量諸如 神仙道攻略, 神仙道新服,神仙道道具,神仙道外掛 等等相關詞。通過這些相關詞的詞根(可以對詞根標記分類屬性)回溯原詞,以及原詞所有相關詞的分類。比如電視劇,常見詞根有 “第**集,最新集。”,一個小說,常見詞根有“第**章”,“最新章節” 等。


                當然,還有一個情況,有些詞是多含義的,比如典型如蘋果(IT產品,電影,水果)。武林外傳(電視劇,游戲)等。通過詞根的分析,并基于不同詞根下的搜索量加權,得到該詞的搜索屬性,偏向哪個領域,或各個領域的比例,是的,不是很精確,但是還是有一定價值的。


                實現方法就是,針對每個未分類的熱門詞,去遍歷包含他的所有詞,然后基于預先定義的分類詞根去套,對包含每個分類詞根的長尾詞根據搜索量加權,匯總,得到該熱門詞的分類屬性,以及覆蓋包含該熱門詞的所有長尾詞的分類屬性。


                這個算法思路,不適合對長尾詞挖掘(含有行業屬性詞根的長尾詞可以覆蓋,但是畢竟覆蓋率不夠),但是對百度熱榜可以有很好的幫助,對熱門詞的挖掘和自動分類還是有一定把握的,當時不少人抱怨我說百度熱榜更新不及時,一些新游戲都很火了也進不了熱榜,我就拉著百度熱榜的產品經理和技術分享過,還提供過原型代碼,然后也沒有然后了。


                至少當時,我能不斷看到網民搜索行為的分類比例(百度長尾詞太多,我的模型覆蓋搜索量只有50%左右),以及變化趨勢,比如眼看著視頻類的搜索比例快速增長。

                +1
                1787°C
                沙发哦 ^ ^ 马上

                帖子地址: 


                頭條網 - 版權說明1、本主題所有言論和圖片純屬會員個人意見,與本站點立場無關
                2、本站所有主題原創文章由該文章作者發表,該文章作者與頭條網享有文章相關版權
                3、其他單位或個人使用、轉載或引用本文時必須同時征得該文章作者和頭條網的同意
                4、文章作者須承擔一切因本文發表而直接或間接導致的民事或刑事法律責任
                5、本文章部分內容轉載自其它媒體,但并不代表本站贊同其觀點和對其真實性負責
                6、如本文章侵犯到任何版權問題,請立即告知本站,本站將及時予與刪除并致以最深的歉意
                7、頭條網管理員和版主有權不事先通知發文者而刪除本文

                微信
                目標始終如一
                懶得打字嘛,點擊右側快捷回復 【右側內容,后臺自定義】
                您需要登錄后才可以回帖 登錄 | 作者號

                本版積分規則

                更多

                精彩推薦

                更多

                熱點動態

                更多

                精彩圖片

                更多

                客服中心

                展開
                頭條網X

                〖頭條網·意見反饋〗

                尊敬的用戶您好!我們非常感謝您的支持,真誠的希望得到您的寶貴意見和建議,以便我們更好地完善我們的服務...

                點擊反饋意見
                每個個體都應該有自己的聲音,哪怕你再渺小。 立即登錄 申請入駐
                快速回復 返回頂部 返回列表
                青青手机视频在线观看免费