來源:智優營家 發布日期:2018-10-30 關注:1911
百度分詞技術即是百度關于用戶提交查詢的關鍵詞串進行的查詢處理后,根據用戶的關鍵詞串用各種匹配方法進行處理的一種技術。
中文分詞指的是將一個中文序列切分成一個一個單獨的詞,分詞即是將接連的字序列按照一定的規范重新組合成詞序列的進程,所謂分詞即是把字與字連在一起的漢語語句分成若干個相互獨立、完整、正確的單詞,詞是最小的、能獨立活動的、有意義的語言成分。
大家都知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文僅僅字、句和段能通過明顯的分界符來簡略劃界,唯獨詞沒有一個形式上的分界符,盡管英文也同樣存在短語的區分問題,不過在詞這一層上,中文比英文要雜亂的多、艱難的多。
中文分詞是文本挖掘的基礎,對于輸入的一段中文,成功的進行中文分詞,能夠到達電腦自動識別語句含義的作用。中文分詞技術屬于自然語言處理技術范疇,對于一句話,人能夠通過自己的知識有明白哪些是詞,哪些不是詞,但如何讓計算機也能理解?這個處理方法即是分詞算法。
熱門推薦
關注智優