По ссылке частотные слова из комментариев Хабра, которые никогда не встречались в постах Хабра (осторожно, довольно много ненормативной лексики):
docs.google.com/file/d/0B-1U-yPHh8eSbk52bW84NXFyYm8/edit?usp=sharing
Ещё за недолгое время пребывания здесь, я не мог не заметить любовь здешних обитателей к созданию и употреблению «хабраслов», захотелось оценить масштабы явления.
Хабраслова (точнее словоформы, стеммингом не занимался) отсортированные по частоте употребления:
docs.google.com/file/d/0B-1U-yPHh8eST3l6M0tuZzVEOFE/edit?usp=sharing
Они же, но отсортированные в лексикографическом порядке:
docs.google.com/file/d/0B-1U-yPHh8eSaFVsYTdJaGtlQUU/edit?usp=sharing
Немного кода:
#этот велосипед я использую всегда для получения нужных мне кусков html-а
def generic_get(soup,search_tag,condition):
l=[]
for e in soup.findAll(search_tag):
d=dict(e.attrs)
if condition(d):
l.append(e)
return l
#получаем текст поста
def get_post_text(main_soup):
return generic_get(main_soup,
"div",
lambda d:d.get("class",[''])[0]=="post")[0].text
#получаем текст всех комментов
def get_comments_text(main_soup):
return ' '.join([x.text for x in generic_get(main_soup,
"div",
lambda d:d.get("class",[''])[0]=="message")])
К примеру, для получения текста этого поста, нужно сделать следующее:
>>> import BeautifulSoup
>>> import urllib
>>> bs=BeautifulSoup(urllib.urlopen("http://habrahabr.ru/post/192560/"))
>>> print get_post_text(bs)
Да… пост, который цитирует себя целиком, включая цитирование себя, включая… и т.д. это было бы оригинально… Я читал, что одному духовному лицу удалось написать нечто подобное на могиле своей собаки, но я, пожалуй, пытаться не буду...
This entry passed through the Full-Text RSS service — if this is your content and you're reading it on someone else's site, please read the FAQ at fivefilters.org/content-only/faq.php#publishers. Five Filters recommends:
- Massacres That Matter - Part 1 - 'Responsibility To Protect' In Egypt, Libya And Syria
- Massacres That Matter - Part 2 - The Media Response On Egypt, Libya And Syria
- National demonstration: No attack on Syria - Saturday 31 August, 12 noon, Temple Place, London, UK
Комментариев нет:
Отправить комментарий