ninazino: (Default)
[personal profile] ninazino
...hadoop? Оно того стоит -- с ним разбираться и под него строиться?

Date: 2011-04-26 12:32 am (UTC)
From: [identity profile] verevkin.livejournal.com
Знаком, хотя лично не работал. В кратце - это open-source реализация гугловских алгоритмов MapAndReduce и BidTable. Сверху написаны технологии HBase, Lucene, Hype, Pig и т.д. По отзывам довольно громоздкая система, применимая только в случае обработки больших файлов с большой скоростью и выявления в них паттернов. Обычно ее используют компании, занимающие поисками в интернете и каталогизацией и обработкой найденного.

Для простой Non-SQL базы данных я бы использовал Cassandra или ЖЖ-шный open-source Memcached.

Date: 2011-04-26 01:09 pm (UTC)
From: [identity profile] ninazino.livejournal.com
Это не для БД предлагается, а для cloud computing. Я пока в этом совсем не разобралась.

Date: 2011-04-26 01:36 pm (UTC)
From: [identity profile] verevkin.livejournal.com
Cloud computing - понятие очень широкое. Что тебе конкретно нужно делать?

Для большинства вещей Cassandra более перепективная и легкая технология. Посмотри у них на странице, какие компани используют ее для своего cloud.

Date: 2011-04-26 02:01 pm (UTC)
From: [identity profile] ninazino.livejournal.com
Спасибо. Посмотрю. Нам надо попытаться использовать существующие технологии для балансировки и распределения довольно многочисленных работ по распознаванию речи. Так сказать, оптимизировать этот процесс в туче (или как это по-русски будет?).

Date: 2011-04-26 02:09 pm (UTC)
From: [identity profile] verevkin.livejournal.com
В облаке :)Hadoop по ссылке ниже - это HBase.

Выбор технологии будет зависеть от объема данных для каждой задачи (например, если нужно хранить большие документы, то лучше MongoDb/CouchDB, а если маленькие key/value, то Cassandra), от языка программирования (вы же не хотите все переписывать), от того, что вам нужно делать быстро (Cassandra быстрее работает для writes, Hadoop/Hbase для reads), от того, нужна ли вам статистическая обработка (Hadoop и Cassandra могут работать с Lucene) и еще кучи параметров. В интеренете много статей по этому поводу. Но тренд сейчас в сторону Cassandra/MongoDb и подобное, а не Hadoop.

Date: 2011-04-26 02:34 am (UTC)
From: [identity profile] ivan-ghandhi.livejournal.com
Да, нормально. Главное, отделить мух от котлет. Котлеты - это мапредьюс и бигтейбл; мухи - это мучительные api и проблемы инсталляции. Их надо демонстративно игнорировать.

Кстати, если есть выбор, то советую монго. Мапредьюс тоже делает, а внутри вместо неонки джаваскрипт. Обожаю!
Edited Date: 2011-04-26 02:34 am (UTC)

Date: 2011-04-26 01:10 pm (UTC)
From: [identity profile] ninazino.livejournal.com
А как это монго искать? Прям так "mongo"? Кагбэ это предлагается для cloud computing -- оно для этого подходит?

Date: 2011-04-26 11:07 pm (UTC)
From: [identity profile] ivan-ghandhi.livejournal.com
mongoDB. Оно рулез.

Date: 2011-04-28 06:04 am (UTC)
From: [identity profile] jbaruch.livejournal.com
ну, рулез то оно рулез, но с hadoop сравнение странное. Потому как hadoop это distributed filesystem, а mongodb - document-oriented database. В огороде бузина, а в Киеве дядька. Хотя да, Map-reduce присутствует и там и там.

Date: 2011-04-28 11:59 am (UTC)
From: [identity profile] ninazino.livejournal.com
Вот-вот, уже теплее. Но, кажется, не только distributed filesystem, но и distributed computing -- нет?

cool:)

Date: 2011-04-27 02:12 am (UTC)
From: [identity profile] procho8954840.livejournal.com
Редко встретишь такой материал.. спасибо
(http://kino-expert.livejournal.com/data/rss/)
(http://mrslesarb.livejournal.com/data/rss/)
(http://netvoekino.livejournal.com/data/rss/)
(http://mrslayer.livejournal.com/data/rss/)
(http://heartless-notes.livejournal.com/data/rss/)
(http://jordanomureno.livejournal.com/data/rss/)
(http://skajizachem.livejournal.com/data/rss/)
(http://bulletformy.livejournal.com/data/rss/)
(http://milliongolosov.livejournal.com/data/rss/)
(http://feelmyeyes.livejournal.com/data/rss/)

Date: 2011-04-28 06:07 am (UTC)
From: [identity profile] jbaruch.livejournal.com
Это general-purpose distributed filesystem. Нынче очень модно на него чего-нить сверху нацепить, hbase какой-нить, а потом удивляться "ой, так это-ж Cassandra получилась!"
Стоит ли оно того и нужно ли под него строиться очень зависит от конкретной задачи. Огород пропалывать, например, неудобно.

Date: 2011-04-28 12:05 pm (UTC)
From: [identity profile] ninazino.livejournal.com
Задача -- распределять большое количество jobs между компутерами в оптимизированном виде. Конкретнее -- работ по распознаванию речи. Вот приходит много запросов, а их надо быстро и грамотно разбросать по серверам, желательно при этом -- минимизируя необходимость перезагрузки языковых моделей.

Date: 2011-05-10 10:18 pm (UTC)
From: [identity profile] debedb.livejournal.com
define a "job".

Profile

ninazino: (Default)
ninazino

March 2026

S M T W T F S
1 23 4 567
8 9 10111213 14
15 161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 16th, 2026 06:19 pm
Powered by Dreamwidth Studios